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O'Reilly Media 通 过 图 书 、 灯 志 、 在 线 服务 、 调 查 研 究 和 会 议 等 方 
式 传 播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 
趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 
为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充 满 了 对 创新 的 倡导 、 创 
造 和 发 扬 光 大 。 





O'Reilly 为 软件 开发 人 员 融 来 章 命 性 的 “动物 书 ”， 创 建 第 一 个 丙 业 
网 站 ( (GN); 组织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运 
动 以 此 命名 ; 创 并 了 Make 洒 志 ， 从 而 成 为 DIY 章 命 的 主要 先锋 ， 公 司 
一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽 市 。O”Reilly 的 会 议和 峰会 
集 育 了 众多 超级 极 客 和 高 瞻 远 肪 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 
的 车 命 性 思想 。 作 为 撤 术 人 士 获取 信息 的 选择 ，O"Reilly 现 在 还 将 先锋 
专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服 
务 或 者 面授 课程 ， 每 一 项 OReilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 
言 轧 是 激发 创新 的 力量 。 
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数 百 万 美元 的 业务 。” 
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“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 
并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 采 你 在 路 上 过 到 多 路 
口 ， 走 小 路 EE) 。 回顾 过 去 Tim 似 乎 每 一 次 都 选择 了 人 小路， 而 且 
有 几 次 都 是 一 内 即 瞬 的 机 会 ， 尽 管 大 路 也 不 错 。” 
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译 者 序 


可 视 化 作为 一 门 涉及 计算 机 图 形 学 、 图 像 处 理 、 计 算 机 视觉 、 人 
机 交互 等 多 个 领域 的 综合 学 科 ， 不 但 广泛 应 用 于 如 医学 、 生 物 、 地 理 
等 领域 的 科学 计算 ， 而 且 在 如 金融 、 通 信 、 网 络 等 行业 中 信息 处 理 方 
面 的 应 用 亦 是 如 火 如 茶 。 


可 视 化 往往 是 借助 图 形 化 手段 来 传递 和 表达 信息 ， 但 是 它 并 不 等 
同 于 计算 机 图 形 化 。 本 书 作为 《数据 之 美 》 ( 《数据 之 美 》 中 文 版 已 
由 机 械 工 业 出 版 社 于 2010 年 10 月 出 版 ，ISBN: 978-7-111-31512-4) 的 
姊妹 篇 ， 既 不 是 介绍 某 个 软件 或 者 某 种 具体 技术 的 工具 性 书籍 ， 也 不 
是 像 讲述 一 门 编程 语言 那样 循序 渐进 、 深 入 浅 出 介绍 语法 用 例 等 。 本 
书 从 较 高 层次 上 介绍 数据 可 视 化 的 方法 和 思想 ， 通 过 描述 分 析 很 多 实 
例 ， 引 领 读者 探索 如 何 把 数据 可 视 化 和 美学 结合 起 来 ， 从 而 深入 洞察 
数据 可 视 化 之 美 。 只 有 数据 可 视 化 和 美学 的 结合 和 并 进 ， 才 能 达到 实 
现 了 可 视 化 的 功能 需求 且 不 楷 琐 枯燥 ， 展 现 了 绚丽 多 彩 的 效果 却 又 不 
过 于 复杂 。 本 书 涉及 的 领域 相当 广泛 ， 既 包括 对 飞行 模式 、 纽 约 地 铁 
图 、 美 国 参 议院 、 维 基 百 科 、 医 学 解剖 的 可 视 化 ， 又 涵盖 了 对 可 视 化 
的 一 些 重要 特征 的 分 析 ， 并 带领 读者 走 入 让 人 叹为观止 的 尖端 高 科技 
项 目 AlloSphere 的 科学 探索 ， 以 及 分 享 从 美学 角度 领略 的 种 种 洞察 和 











感 恒 等 。 阅 读本 书 也 许 无 法 市 来 很 大 的 技能 提高 ， 却 可 以 在 一 定 程 度 
上 开阔 我 们 的 视野 ， 拓 展 我 们 的 思考 空间 。 


这 是 我 翻译 的 第 二 本 书 (第 一 本 是 《数据 之 美 》) ， 切 身体 会 到 
翻译 一 本 书 是 多 么 不 容易 。 于 我 而 言 ， 也 许 是 对 其 中 很 多 领域 的 专业 
知识 了 解 不 够 ， 本 书 的 翻译 相对 要 难得 多 。 虽 然 投 入 了 大 量 的 业余 时 
间 ， 却 还 是 进展 得 非 第 缓慢， 导致 一 拖 再 拖 。 感 谢 机 械 工 业 出 版 社 编 
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难免 ， 还 望 各 位 读者 不 将 指正 。 
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Toby Segaran 和 Jeff Hammerbacher 的 《数据 之 美 》 探 索 了 从 数据 收 
集 到 数据 存储 、 组 织 和 分 析 等 与 数据 相关 的 方方面面 。 很 自然 地 ， 编 
著 本 书 的 想法 正 是 基于 此 书 。 在 编著 《数据 之 美 》 一 书 的 过 程 中 ， 我 
们 就 很 清晰 地 认识 到 可 视 化 一 一 把 信息 作为 艺术 品 展现 给 人 们 一 一 是 
一 个 值得 我 们 另行 审视 且 非 常 有 深度 和 广度 的 话题 。 成 功 的 可 视 化 ， 
如 果 做 得 漂亮 ， 虽 表面 简单 却 富 含 深意 ， 可 以 让 观察 者 一 眼 就 能 洞察 
事实 并 产生 新 的 理解 。 我 们 希望 帮助 新 手 在 可 视 化 这 个 不 断 发 展 的 领 
域 中 了 解 专家 们 为 实现 这 一 目标 所 采用 的 方法 和 决策 过 程 。 














饶 有 趣味 的 是 ， 在 收集 潜在 的 撰 稿 人 列表 时 ， 我 们 发 现 “ 美 丽 ” 
词 可 以 有 非常 多 的 诠释 方式 。 Andy Oram 和 Greg Wilson 的 《Beautiful 
Code) (该 书 中 文 版 《代码 之 美 》 已 由 机 械 工业 出 版 社 于 2009 年 1 月 
出 版 ，ISBN: 978-7-111-25133-0) 一 书 葛 定 了 该 “之 美 ” 系 列 ， 它 把 “ 美 
丽 ” 定 义 为 解决 某 些 问题 的 一 种 简单 优雅 的 方式 。 但 是 ， 可 视 化 一 一 作 
为 信息 和 艺术 的 融合 一 一 自然 地 结合 了 问题 求解 和 艺术 这 两 个 方面 ， 
允许 我 们 同时 通过 理性 和 传统 的 感官 方式 来 感受 美丽 。 








我 们 希望 你 会 和 我 们 一 样 喜 欢 本 书 所 展现 的 丰 宇 多 彩 的 背景 知 
识 、 项 目 和 方法 。 虽 然 各 章 涉及 的 背景 、 项 目 和 方法 不 同 ， 但 它们 确 
实 为 那些 善于 思考 和 观察 的 人 们 提供 了 一 些 主题 。 整 本 书 围绕 着 寻找 


数据 的 思想 展开 讨论 ， 包 括 讲 故事 、 色 彩 使 用 、 数 据 中 的 粒度 级 别 和 
用 户 探索 。 抓 住 这 些 线索 ， 看 看 它们 可 以 给 你 的 工作 带 来 什么 局 发 。 





本 书 的 版 税 将 捐赠 给 “人 道 建筑 组 织 *( (Acchitecture for 
Humanity,http: /www.architectureforhumanity.org)。 该 组 织 致力 于 通过 
为 最 需要 的 地 方 提供 设计 、 建 造 和 开发 服务 ， 以 使 得 世界 变 得 更 加 美 
好 。 我 们 希望 你 会 思考 自己 的 设计 过 程 如 何 改变 世界 。 


本 书 的 组 织 方式 
以 下 是 本 书 的 概览: 


第 1 章 “ 论 美 *。Noah Iliinsky 给 出 了 在 可 视 化 情境 下 ， 美 所 列 洱 
的 意义 ， 为 什么 值得 追求 ， 以 及 如 何 追求 。 


第 2 章 “曾经 的 堆 共 时 间 序 列 ， 讲述 故事 在 信息 可 视 化 中 的 重要 
PE” © Matthias Shapiro 曾 述 了 讲 故事 对 于 可 视 化 的 重要 性 ， 引 导读 者 一 
起 创建 一 个 目 己 可 以 实现 的 、 人 简单 的 可 视 化 项 目 。 


第 3 章 “Wordle” ° Jonathan Feinberg 介 绍 了 他 所 发 明 的 流行 的 可 
视 化 文本 的 内 部 工作 方式 ， 探 讨 了 其 在 这 个 过 程 中 从 技术 和 审美 角度 
上 所 做 的 选择 。 


第 4 章 “色彩 : 数据 可 视 化 的 ' 灰 姑娘 ”。Michael Driscoll Hyi T 
如 何 有 效 地 使 用 颜色 来 表达 我 们 尚未 意识 到 而 大 脑 却 可 以 识别 的 其 他 








维度 的 数据 。 


第 5 曹 “信息 映射 重新 设计 纽约 地 铁 图 ”。Eddie Jabbour 以 探索 
简陋 的 地 铁 图 作为 基本 的 可 视 化 工具 来 理解 复杂 的 系统 。 





第 6 章 “飞行 模式 : 深入 探索 ”。Aaron Koblin 和 Valdean Klump 对 
美国 和 加 拿 大 的 民航 交通 进行 可 视 化 ， 揭 示 了 一 种 “ 疡 狂 ”的 空中 旅行 
Fi © 


第 7 曹 “你 的 选择 揭示 你 是 谁 : 社会 模式 的 挖掘 和 可 视 化 ”。 
Valdis Krebs 深 入 探索 行为 数据 ， 证 明了 通过 我 们 购买 的 书 和 交往 的 人 
能 够 更 深入 地 揭示 自我 。 








第 8 章 “美国 参议 院 社 交 图 (1991~2009) 的 可 视 化 ”。Andrew 
Odewahn 通 过 “定量 ”的 证 据 来 评价 美国 参议 院 天 于 投票 联盟 的 “ 定 
性 ”的 故事 。 


第 9 章 “GRKA: 搜索 和 发 现 ”。Todd Holloway 通 过 已 经 应 用 于 
YELLOWPAGES.COM 网 站 和 Netflix 颁 奖 中 的 近似 图 形 化 技术 来 探索 
搜索 和 发 现 的 动态 特征 。 


第 10 草 “从 社交 网 络 可 视 化 的 混杂 之 中 寻找 美丽 的 感 避 ”。 Adam 
Perer 通 过 结合 可 视 化 和 统计 的 交互 技术 ， 以 帮助 读者 深入 探索 混杂 的 
社区 网 络 可 视 化 。 





第 11 章 “美丽 的 历史 : 对 维基 百科 可 视 化 ”。Martin Wattenberg 4ll 
Fernanda Viégas 从 最 初 的 设计 草图 到 发 表 的 科学 论文 ， 通过 可 视 化 带 
领 读者 走向 未 知 领 域 的 探索 。 


第 12 章 “把 表 转 换 成 树 : 把 并 行 集 发 展 成 意义 深远 的 项 目 ”。 
Robert Kosara 重 点 摘 述 了 数据 的 可 视 化 展现 和 基础 的 数据 结构 或 数据 
库 设 计 之 间 的 关系 。 





第 13 章 “‘X byY? 的 设计 :奥地利 电子 艺术 贡 档 案 的 信息 美学 探 
索 ”。Moritz Stefaner 描 述 了 努力 寻找 的 一 种 信息 展现 方式 ， 这 种 方式 
不 仅 有 用 且 信 息 充 实 ， 而 且 征 感性 的 、 令 人 回味 的 。 

















第 14 章 EPER” ° Maximilian Schich 揭 秘 了 资料 数据 库 中 由 于 
员 


管理 员 的 本 地 操作 和 数据 源 的 异 构 性 产生 的 一 些 非 直观 的 结构 特征 。 


第 15 章 “1994 年 : 基于 《纽约 时 报 》 上 的 文章 搜索 API 的 数据 探 
ZR” o Jer Thorp 引 领 读 者 使 用 API 对 《纽约 时 报 》 资 料 库 的 数据 进行 探 
索 和 可 视 化 。 


第 16 章 “《 纽 约 时 报 》 的 一 天 ”。Michael Young 和 Nick Bilton 摘 
述 了 《纽约 时 报 》 研 发 组 是 如 何 使 用 Python 和 Map/Reduce 来 处 理 美 
以 及 全 世界 的 Web 站 点 和 手机 网 站 的 流量 数据 。 








第 17 章 “深入 揭秘 复杂 系统 ”。Lance Putnam ` Graham 
Wakefield ` Haru Ji ` Basak Alper ` Dennis Adderton 和 JoAnn Kuchera- 
Morin 教 授 描述 了 AlloSphere 项 目 通过 尖端 高 科技 可 视 化 和 可 听 化 技术 
实现 的 非凡 的 科学 探索 。 





第 18 章 “解剖 可 视 化 ， 真正 的 黄金 标准 >”。Anders Persson 描 述 了 
使 用 新 的 成 像 技 术 来 收集 和 分 机 人 类 和 动物 尸体 数据 。 


第 19 章 “动画 可 视 化 : 机 遇 和 缺点”。Danyel Fisher 壬 斌 提出 设计 
动画 可 视 化 的 一 种 框架 。 


B20 PRIIP” ° Jessica Hagy 提 出 了 对 可 视 化 这 头 “ 大 
象 " 的 各 个 方面 的 洞察 ， 因 此 可 以 对 全 局 有 更 透彻 的 理解 。 





本 书 使 用 的 体例 





本 书 遵循 以 下 字体 体例 : 

斜体 ( (Talic) 

表示 新 的 术语 、URL、Email 地 址 、 文 件 名 和 文件 扩展 名 。 
等 宽 字 体 ( (Cnstant width) 


用 于 程序 清单 以 及 段落 中 的 程序 单元 如 变量 或 范 数 名 称 、 数 据 
库 、 数 据 类 型 、 环 境 变 量 、 声 明和 关键 字 。 


等 宽 粗 体 字 ( (Cnstant width bold) 
显示 命令 或 者 其 他 应 该 由 用 户 逐 字 输 入 的 文本 。 
等 宽 斜 体 字 ( (Cnstant width italic) 


表示 必须 根据 用 户 提供 的 值 或 者 由 上 下 文 决定 的 值 进行 蔡 代 的 文 


使 用 本 书 的 样 例 代码 


本 书 是 为 了 帮助 你 完成 工作 。 通 常 来 说 ， 你 可 以 在 你 的 程序 和 文 
档 中 使 用 本 书 的 代码 。 除 非 你 使 用 了 本 书 的 大 量 代 码 ， 否 则 你 无 需 联 
系 我 们 以 获取 许可 。 例 如 ， 写 一 个 程序 用 到 本 书 的 几 段 代码 不 需要 获 
得 许可 ; 销售 和 分 发 OReilly 从 书 的 例子 代码 光 副 需要 获得 许可 ; 引用 
本 书 的 样 例 代码 来 解决 一 个 问题 不 需要 获得 许可 ; 结合 本 书 的 大 量 代 
码 到 你 的 产品 文档 中 需要 获得 许可 。 














我 们 不 要 求 你 (引用 本 书 时 ) 给 出 出 处 ， 但 是 如 果 你 这 么 做 ， 我 
们 对 此 表示 感谢 。 出 处 通常 包含 标题 、 作 者 、 出 版 社 和 ISBN。 例 
如 : “Beautiful Visualization,edited by Julie Steele 和 Noah 
Iliinsky.Copyright 2010 O’Reilly Media,Inc., 978-1-449-37986-5.” 


URR ERAT AE ES AE A E E AE A CEE A 
围 ， 请 和 我 们 联系 : permissions@oreilly.com ° 


联系 方式 


请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 : 


美国 : 


O,Reilly Media,Inc. 


1005 Gravenstein Highway North Sebastopol,CA 95472 


中 国 : 











北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 


奥 茉 利 技术 咨询 GER) ARAT 





OReilly 的 每 一 本 书 都 有 专属 网 站 ， 你 可 以 在 那 找到 关于 本 书 的 相 
天 信息 ， 包 括 勘误 列表 、 示 例 代 码 以 及 其 他 的 信息 。 本 书 的 网 站 地 址 
Ze: http://www.oreilly.com/catalog/9781449379865/ 





对 于 本 书 的 评论 和 技术 性 的 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions@oreilly.com 


REARS fa > BWM REPOM, W LA EB 
站 : 


http://www.oreilly.com 
http://www.oreilly.com.cn 
致谢 


目 先 ， 我 们 要 感谢 各 位 作者 投入 这 么 多 的 时 间 和 精力 来 分 诗 他 们 
的 智 营 。 他 们 共同 的 愿景 和 经 历 给 我 们 留 下 了 深刻 的 印象 ， 并 且 激 发 
我 们 在 工作 中 的 创作 灵感 。 





Julie: 感谢 家 人 Barbara、Pete 和 Matt， 感 谢 他 们 一 直 以 来 的 支 
持 ， 感 谢 他 们 激发 了 我 对 世界 的 好 奇 心 。 感 谢 Martin， 感 谢 他 的 陪伴 
和 永远 跳动 着 的 思维 ， 他 给 我 带 来 了 很 多 灵感 。 

Noah: 感谢 在 过 去 这 些 年 来 帮助 我 探索 的 每 一 位 人 ， 尤 其 是 我 的 
老师 、 同 事 和 家 人 ， 他 们 总 是 给 我 提出 很 好 的 问题 ， 帮 助 我 更 好 地 思 
考 o 


第 1 章 Æ Noah lliinsky 





本 章 探 讨 了 在 可 视 化 情境 下 , “类 ”所 强 泗 的 意义 ， 它 为 什么 值得 
追求， 以 及 如 何 追 求 。 我 们 将 首先 探讨 美的 组 成 部 分 ， 审 视 一 些 正 例 
和 有 反例， 然后 再 重点 说 明 实 现 可 视 化 之 美的 关键 步骤 站。 


{ANSE 


SAA ARRAY, VAT Ai UE? E 
FFX FER GS ER SATS? 可 能 是 。 但 是 ， 当 我 
们 在 这 种 场景 下 讨论 可 祝 化 时 ， 可 以 认为 “类 ?包含 4 个 关键 因素 ， 而 审 
类 判断 仅仅 是 其 中 的 一 个 。 一 个 称 得 上 “类 ?的 可 视 效 有 末 ， 它 不 但 必须 
美观 ， 而 且 也 必须 新 颖 、 充 实 和 高 效 。 














BAM 








一 个 可 视 效 果 要 想 真正 做 到 “ 美 >， 它 必然 不 仅仅 是 作为 信息 渠 
道 ， 还 必须 具备 某 些 新 凌 性 ， 一 种 寻 新 的 视角 观察 数据 ， 或 者 一 种 风 
格 可 以 激发 读者 的 激情 从 而 达到 新 的 理解 高 度 。 众 所 周知 的 可 视 化 展 
现 方 式 (如 散 点 图 ) 可 能 易于 理解 且 有 效 ， 但 是 在 绝 大 多 数 情况 下 ， 
它们 无 法 使 我 们 感觉 充满 尺 奇 和 乐趣 。 通 章 情 况 下 ， 让 人 壬 心 悦目 的 








设计 并 非 是 为 了 痢 颖 而 设计 ， 而 是 为 了 更 加 有 效 而 设计 ， 新颖 性 只 是 
为 了 有 效 地 展示 对 世界 的 一 些 新 的 洞察 所 衍生 的 一 个 副产品 。 





[1] : 在 本 章 中 ， 可 视 化 ( (vsualization) 和 可 视 效 果 ( (vsual) 两 个 词 是 
等 价 的 ， 表 示 所 有 结构 化 的 信息 表现 方式 ， 包 括 图 形 、 图 表 、 示 意 
`、 地图、 故事 情节 图 以 及 不 是 很 正式 的 结构 化 捅 图 。 








FORK 





WHEAT MLS, PESMI, AAO Re etek TK 
取信 息 的 途径 ， 人 们 可 以 借以 增长 知识 。 不 能 达到 这 个 目的 的 可 视 化 
征 失 败 的 。 信 息 传 递 能 力 是 判断 整体 成 功 与 否 的 最 重要 的 因素 ， 因 此 
它 是 可 视 化 设计 的 主要 张 动力 。 





在 创造 一 个 有 效 的 视觉 效果 中 ， 和 需要 考虑 几 十 个 因素 ， 如 场景 、 
感知 和 认 知 等 。 虽 然 其 中 很 多 因素 都 超出 了 本 书 的 讨论 范围 ， 我 们 将 
重点 考虑 两 个 特殊 因素 : 想 要 表达 的 信息 和 应 用 场景 。 除 了 关注 数据 
本 号 ， 同 时 还 关注 这 两 个 因素 ， 将 会 在 使 数据 可 视 化 更 有 效 、 成 功 和 
美丽 的 道路 上 走 得 更 远 ; 我 们 将 在 稍 后 部 分 对 这 两 个 因素 进行 更 为 深 
入 地 探讨 。 








可 


效 





美丽 的 可 视 化 具备 一 个 清晰 的 目标 、 传 递 一 种 信息 或 者 提供 一 个 
守 别 的 角度 来 表达 信息 。 访 问 这 些 信息 必须 尽 可 能 地 直截了当 ， 而 不 
需要 牺牲 任何 必要 的 相关 复杂 性 。 








可 视 化 不 允许 包含 太 多 和 主题 无 关 的 内 容 或 信息 。 在 页 面 上 放 太 
多 的 信息 可 能 会 (也 可 能 不 会 ) 给 读者 传递 更 多 的 信息 。 然 而 ， 展 现 
的 信息 越 多 ， 往 往 意 味 着 读者 需要 花费 更 长 的 时 间 来 查找 需要 的 那 部 
分 信息 。 不 相关 的 数据 如 同 噪 首 ， 如 果 无 益 ， 则 很 可 能 有 害 。 
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图 形 化 构建 一 一 包括 坐标 轴 、 布 局 、 形 状 、 色 彩 、 线 条 和 排版 
一 一 是 实现 可 视 化 之 美的 “必要 ”因素 而 不 是 “充分 ”因素 。 合 理 地 利用 
这 些 因 素来 引导 用 户 、 传 播 信息 、 揭 示 关 系 、 突 出 结论 以 及 提高 视觉 
魅力 是 必要 的 。 








图 形 方面 的 设计 必须 主要 服务 于 表现 信息 这 个 目标 。 在 图 形 处 理 
中 ， 任 何 无 助 于 表现 信息 的 微小 方面 都 可 能 成 为 表现 信息 的 潜在 障 
碍 : 这些 方面 可 能 会 降低 效率 ， 妨 碍 可 视 化 的 成 功 。 在 图 形 设计 部 ， 
通常 是 展现 的 数据 越 少 ， 表 示 的 信息 越 丰 富 。 同 样 道理 ， 展 现 的 数据 
如 果 无 益 ， 则 很 可 能 有 害 。 











通常 ， 狐 疾 的 视觉 处 理 方式 古 创 新 性 的 解决 方 条 。 然 而 ， 如 采 一 
个 独特 的 设计 是 为 了 与 众 不 同 ， 而 且 其 新 颖 性 与 使 数据 更 易于 访问 并 
没有 必然 联系 ， 那 么 几乎 可 以 确定 该 可 视 化 结果 是 更 难以 使 用 的 。 在 
最 坏 情 况 下 ， 新 壬 的 设计 只 不 过 是 目 负 的 产物 ， 或 者 是 布 望 创 造 一 些 
视觉 上 令 人 印象 深刻 的 欲望 的 产物 ， 完 全 没有 考虑 到 目标 受众 、 使 用 
方式 或 功能 。 这 种 设计 对 任何 人 都 没有 使 用 价值 。 











大 量 平 庸 的 信息 可 视 化 完全 基于 标准 格式 。 基 本 的 可 视 化 展现 方 
式 ， 如 条 形 图 、 折 线 图 、 散 点 图 、 人 饼 图 、 组 织 流程 图 ， 以 及 其 他 一 些 
格式 是 可 以 很 容易 通过 各 种 软件 生成 的 。 这 些 格式 无 处 不 在 ， 并 且 提 
供 了 便捷 、 管 规 的 开始 使 用 方式 。 可 视 化 创造 着 和 消费 首都 可 以 很 好 
地 理解 这 些 格式 的 理论 意义 和 使 用 方式 。 基 于 这 些 原因 ， 这 些 方法 是 
常见 可 视 化 问题 的 民 好 且 强 大 的 解决 方案 。 然 而 ， 使 用 这 些 方法 的 最 
佳 方式 局 限于 一 些 特定 的 数据 类 型 ， 而 且 其 标准 性 和 普遍 性 意味 着 它 
们 基本 无 法 达到 新 颖 性 。 











“ 顾 得 ”声誉 和 财富 的 美丽 的 可 视 化 则 不 同 于 上 述 传统 的 可 视 化 。 
它们 不 必 源 于 创造 者 和 消费 者 所 熟悉 的 惯例 (虽然 它们 可 能 会 充分 利 
用 一 些 熟 悉 的 视觉 因素 和 处 理 方法 ，， 而 且 它 们 通常 与 期 望 的 数据 格 
式 有 一 定 仿 甜 。 这 些 图 像 通 闸 不 会 受 限 于 传统 的 可 视 化 协议 :它们 会 
根据 非 传统 的 数据 类 型 进行 灵活 地 变动 ， 这 足以 使 人 慰 言 和 兴 














最 重要 的 是 ， 美 丽 的 可 视 化 可 以 反映 出 所 描述 数据 的 品质 ， 显 式 
地 揭示 源 数据 中 内 在 和 隐 式 的 属性 和 关系 。 读 者 了 解 了 这 些 属性 和 天 
系 之 后 ， 可 以 因此 而 获取 新 的 知识 、 洞 察 力 和 乐趣 。 为 了 说 明 这 一 
点 ， 我 们 一 起 来 欣赏 两 个 闻名 于 世 的 美丽 的 可 视 化 ， 观 察 它们 是 如 何 
充分 利用 其 源 数 据 结构 的 。 


元 素 周期 表 


站 


我 们 探讨 的 第 一 个 例子 是 门 捷 列 夫 ( (Mndeleev) 的 元 素 周 期 表 ， 它 
征 可 视 化 的 一 个 态 作 ， 一 张 表 中 宫 括 了 至 少 4 种 、 通 各 9 种 或 者 更 多 类 
型 的 数据 编码 ( 见 图 1-1) 。 元 素 的 属性 呈 周 期 性 变化 ， 将 所 有 元 素 排 
列 成 一 张 表格 ， 以 表格 的 行 和 列表 示 属 性 的 变动 周期 。 这 是 关键 点 ， 
因此 我 再 重 述 一 遍 : 元 素 周期 表 的 天 才 之 处 在 于 通过 元 素 的 编排 组 织 
扬 示 了 元 素 之 间 的 相互 天 系 以 及 周期 性 变化 的 物理 属性 。 表 的 结构 直 
接 取决 于 其 所 表示 的 数据 。 在 这 张 表 上 ， 元 素 的 属性 一 目 了 然 ， 因 
此 ， 借 助 这 张 表 殉 可 以 快速 地 认识 和 理解 给 定 元 素 的 属性 特征 。 除 此 
之 外 ， 根 据 元 素 周 期 表 上 的 空白 ， 能 够 精确 地 预测 尚未 发 现 的 元 素 。 





























毋庸 置疑 ， 元 素 周 期 表 信 息 丰富 ， 其 高 效 性 也 是 可 以 证 明 的， 而 
且 为 在 此 之 前 一 直 没 有 民 好 的 可 视 化 解决 方案 的 问题 提供 了 一 种 全 新 
的 视角 。 基 于 以 上 种 种 原因 ， 元 素 周 期 未 被 视 为 复杂 数据 可 视 化 早期 
的 一 个 杰作 。 
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在 标准 温度 和 压力 下 的 状态 
红色 原子 数 : 气态 

HERTA: 液态 并 
黑色 原子 数 : 固态 i 


1 点 线 边框 : -只 存在 人 工 合成 的 同位 素 | 合成 元 素 ) 。------ -nn 
RHE WARN 


图 1-1: 门 捷 列 夫 的 元 素 周 期 表 ( 见 彩 图 1) 


值得 指出 的 是 ， 为 达到 理想 的 效能 和 取得 非凡 的 成 绩 ， 元 系 周 期 
表 所 需 的 图 形 化 处 理 绝对 是 最 少 的 ;实际 上 ， 最 早 的 版 本 是 纯 文 本 
的 ， 可 以 通过 打印 机 打印 出 来 。 强 大 的 图 形 设计 处 理 并 非 是 可 视 化 美 
丽 的 必要 条 件 。 






伦敦 地 铁 图 





第 二 个 美丽 的 可 视 化 经 典 是 Harry Beck 的 伦敦 地 铁 图 ( 见 图 1- 
2) 。 该 地 铁 图 ( (Tbe map) 受 到 可 视 化 的 惯例 和 标准 的 影响 ， 但 是 却 没 
有 被 这 些 制图 者 的 陈规 所 束缚 。Beck 的 背景 是 画 电路 草图 : 他 习惯 于 
绘制 45°* 和 90° 的 电路 布局 图 ， 并 把 这 种 习惯 融 到 了 地 铁 图 的 绘制 过 程 
rH o 








这 种 风格 把 地 图 从 准确 的 代表 地 理 位 置 特征 的 束缚 中 解放 出 来 
了 ， 引 领 了 更 简单 地 反映 地 铁 旅 行 实际 情况 的 抽象 视觉 风格 : 在 地 铁 
系统 中 ， 人 们 最 关心 的 是 目 己 和 系统 中 其 他 位 置 的 逻辑 关系 。 精 确 地 
显示 了 地 理 特 征 的 其 他 地 图 可 以 帮助 你 找 出 在 地 面 上 可 以 做 什么 ,但 
是 当 你 在 地 铁 里 时 ， 你 能 够 到 达 的 地 面 位 置 仅仅 是 那些 地 铁 站 。 








图 1-2: 伦敦 地 铁 图 : 2007 年 伦敦 地 铁 图 。 伦 敦 交通 博物 馆 收 藏 (已 


授权 使 用 ， 见 彩 图 2) 


伦敦 地 铁 图 突出 显示 了 最 相关 的 信息 ， 剔 除了 很 多 不 相关 的 信 
恩 ， 使 得 相关 的 数据 可 以 更 容易 被 访问 到 。 它 独特 鲜明 的 图 形 风格 已 
经 成 为 标志 。 它 是 一 个 公认 的 杰作 ， 一 个 无 可 争议 的 美丽 的 可 视 化 。 





其 他 地 铁 图 和 周期 表 仪 仅 古 弱 仿 制品 


由 于 元 素 周 期 表 和 伦 吾 地 铁 图 的 成 功 ， 其 他 数据 的 表现 方式 往往 
会 模仿 它们 的 风格 。 几 乎 你 能 想象 的 所 有 东西 部 有 周期 表 ， 食品 、 饮 
料 、 动 物 、 爱 好 ， 更 为 可 悲 的 是 甚至 包含 了 可 视 化 方法 出。 所 有 这 些 
都 没有 抓 住 可 视 化 的 精 散 。 类 似 地 ， 地 铁 图 的 风格 也 用 于 表示 不 同 风 
格 的 电影 个 、 技 术 公 司 之 间 的 关系 趾 、 公 司 并 购 时 间 表 由， 以 及 其 
他 城市 的 地 铁 系 统 。 





这 些 例子 中 ， 关 于 伦敦 地 铁 图 的 风格 的 唯一 合理 的 使 用 方式 是 采 
用 该 风格 来 表示 其 他 城市 的 地 铁 图 (很 多 城市 ， 如 东 泵 、 葛 斯 科 等 ， 
在 这 方面 都 做 得 非常 好 ) 。 对 该 风格 的 其 他 使 用 方式 都 没有 理解 其 产 
品 的 特别 之 处 ， 产 品 和 源 数 据 的 真正 关系 和 表现 形式 。 把 非 周期 性 的 
数据 放 到 周期 表 中 束 好 比 根据 原子 数目 对 袜子 进行 排序 ， 这 么 做 没有 
任何 意义 ， 因 为 所 要 表示 的 结构 不 存在 。 通 过 这 些 经 典 的 风格 来 表示 
其 他 数据 也 许可 以 被 视 为 是 非常 有 创意 的 实践 ， 但 是 这 种 做 法 并 没有 
抓 住 原始 的 可 视 化 风格 的 精 散 和 价值 所 在 。 











[1] Whttp: //www.visual-literacy.org/periodic_table/periodic_table.html ° 
[2] 见 http: //blog.vodkaster.com/2009/06/25/the-top-250-best-movies-of- 
all-time-map/。 

[3] 见 http: //informationarchitects.jp/wtm4/ ° 

[4] 见 http: //www.meettheboss.com/google-acquisitions-and- 
investments.html ° 


如 何 实现 美丽 








显然 ， 对 于 大 量 不 太美 丽 的 可 视 化 而 言 ， 如 何 实现 可 视 化 之 美 并 
不 清晰 。 尽 管 如 此 ， 我 相信 存在 很 多 种 可 靠 的 方式 实现 可 视 化 之 美 ， 
即便 这 些 可 视 化 之 美 不 是 完全 确定 性 的 。 











走出 默认 风格 


美丽 的 可 视 化 的 首要 要 求 是 新 颖 、 轩 新 和 独特 。 很 难 (虽然 不 是 
不 可 能 ) 使 用 默认 风格 达到 必要 的 新 颖 性 。 在 绝 大 多 数 情况 下 ， 格 式 
明确 的 风格 包含 明确 、 合 理 的 使 用 习惯 : 用 折线 图 表示 连续 数据 、 条 
形 图 表示 离散 数据 、 饼 图 表示 你 对 于 图 形 直 观 呈 现 的 优 关 更 感 兴 趣 而 
不 是 传递 信息 本 映 。 


标准 的 格式 和 惯例 确实 也 有 优点 ， 易 于 创建 、 为 大 多 数 读 者 所 熟 
悉 ， 且 具有 有 利明 性 。 绝 大 多 数 时 候 ， 应 该 遵从 并 充分 利用 这 些 惯例 。 
然而 ， 通 党 情况 下 ， 使 用 实用 型 的 格式 难以 实现 新 糯 性 ， 默 认 方 式 很 
有 用 ， 但 是 存在 其 局 限 性 。 抛 弃 默 认 格 式 并 采用 更 好 、 更 强大 的 解决 
方案 必须 是 为 了 传递 信息 而 非 多 样 化 。 








在 不 适宜 的 情况 下 使 用 默认 的 表现 方式 ， 可 能 也 存在 陷阱 。 我 过 
到 的 一 个 例子 是 一 个 制造 公司 的 Web 站 点 ， 在 该 站 点 中 ， 它 以 零售 商 








为 第 一 列 并 按照 其 名 字 的 字母 序 排列 ， 以 零售 商 们 所 在 的 城市 和 州 为 
第 二 列 。 这 个 系统 对 于 设计 它 的 人 来 说 当然 很 有 意义 ， 但 是 该 设计 并 
没有 考虑 到 该 列表 会 如 何 使 用 。 如 果 我 已 经 知道 了 我 所 在 区 域 的 零售 
商 ， 按 照 字 母 序 排列 将 很 有 用 。 








不 幸 的 是 ， 我 知道 目 己 的 位 置 ， 但 是 不 知道 零售 商 的 名 称 。 在 这 
种 情况 下 ， 根 据 最 易 获 取 的 信息 一 一 位 置 排序 的 列表 比 默认 的 以 零售 
商 名 字 的 字母 序 排列 的 列表 将 会 更 有 意义 。 
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正如 我 之 前 所 提 到 的 ， 成 功 的 可 视 化 必须 是 信息 充实 且 实 用 的 。 
为 了 确保 可 视 化 的 实用 性 ， 有 两 个 方面 需要 考虑 : 预期 的 信息 和 使 用 
场合 。 考 察 并 整合 这 些 方 面 的 认识 通常 是 一 个 迭代 的 过 程 ， 随 着 设计 
的 演进 ， 会 涉及 在 这 些 因素 间 的 来 回 变化 。 此 外 还 应 该 考虑 惯例 ， 以 
文 持 设 计 的 可 达 性 (谨慎 使 用 某 些 惯例 ， 可 以 帮助 用 户 对 数据 做 出 一 
些 假 是， 比如 关于 美国 政治 上 使 用 红色 和 蓝 色 来 表现 视觉 效果 ) 。 








预期 的 信息 


首先 要 考虑 的 问题 是 你 想 要 传达 什么 知识 ， 想 要 回答 什么 问题 ， 
或 者 想 要 讲述 什么 故事 。 这 个 阶段 完全 是 抽象 地 规划 可 视 化 功能 ， 在 
这 个 阶段 开始 考虑 特定 的 格式 或 者 实现 细 市 还 有 些 为 时 过 早 。 这 是 一 
个 关键 步 骤 ， 而 且 很 值得 投入 时 间 。 














一 旦 确定 了 可 视 化 要 传递 的 信息 或 者 要 达到 的 目标 ， 接 下 来 需要 
思考 的 是 如 何 使 用 可 视 化 。 读 者 和 他 们 的 需求 、 行 话 和 偏好 必须 纳入 
考虑 之 中 。 在 这 个 阶段 ， 明 确 用 户 需 要 完成 的 任务 或 者 明确 他 们 需要 
从 可 视 化 中 获取 的 知识 将 很 有 帮助 。 用 户 的 专业 知识 刚 开 始 可 能 不 能 
很 好 地 被 理解 ， 但 是 这 是 在 设计 过 程 中 需要 牢记 的 关键 因素 。 





如 果 你 最 终 不 能 以 读者 和 他 们 的 需求 的 方式 准确 地 国明 你 的 目 
标 ， 你 束 没 有 目标 ， 也 无 法 来 衡量 你 到 底 成 功 与 否 。 上 文 所 举 的 两 个 
案例 的 目标 可 能 可 以 如 下 陈述 :“ 我 们 的 目标 是 ， 提 供 一 张 伦 致 地 铁 系 
统 的 视图 ， 使 得 乘客 可 以 轻松 地 选 定 乘 车 路 线 ”， 或 者 是 “我 的 目标 
和 是， 以 一 种 可 以 很 清晰 地 显示 元 妹 的 物理 特征 并 且 可 以 据 此 对 它们 的 
行为 作出 预测 的 方式 来 显示 元 素 。” 














一 旦 对 目 己 的 信息 以 及 受众 的 需求 和 目标 有 了 清晰 的 理解 ， 丈 可 
以 开始 考虑 你 的 数据 。 对 可 视 化 目标 的 理解 将 允许 你 有 效 地 选择 需要 


包 仿 哪些 方面 的 数据 ， 判 断 哪 些 方 面 的 数据 是 没 用 的 、 甚 至 更 糟 的 是 
会 分 散 你 的 注意 力 。 





使 用 场景 。 意 识 到 以 下 两 种 设计 目的 在 可 视 化 上 的 区 别 也 是 很 重 
要 的 : 一 是 中 在 揭示 设计 师 所 知道 的 ， 二 是 为 了 帮助 未 知事 物 的 研究 
(虽然 设计 师 可 能 提前 猜想 到 其 结果 ) 。 前 者 是 演示 工具 ， 后 者 是 探 
索 工具 。 这 两 种 设计 方式 都 可 能 采取 标准 的 或 者 非 传 统 的 方式 ， 而 且 
都 可 以 从 过 程 和 处 理 中 受益 。 然 而 ， 明 确 区 分 清楚 到 属 属 于 哪 种 可 视 
化 设计 类 型 是 非常 重要 的 ， 因 为 这 一 点 会 影响 后 续 的 所 有 设计 选择 。 








旨 在 揭示 已 知事 物 的 可 视 化 是 无 处 不 在 的 。 只 要 一 方 癌 另 一 方 传 
达 信 息 的 方式 不 仅仅 是 文本， 就 存在 这 种 可 视 化 。 我 们 直到 的 绝 大 多 
数 的 图 形 和 图 表 是 为 了 传达 特殊 的 见解 、 消 居 或 者 湾 在 瓜 层 数据 中 的 
清晰 知识 : 团队 如 何 分 工 、 绩 效 如 何 划分 、 公 司 如 何 组 织 、 给 定 的 输 
入 如 何 影 响 最 终结 末 ， 以 及 不 同 产品 如 何 比较 等 。 数 据 可 能 还 会 揭示 
其 他 的 知识 或 者 见解 ， 但 是 如 果 它们 对 于 当前 的 目标 不 重要 ， 该 设计 
忠 不 需要 考虑 展示 这 些 消 乱 或 者 趋势 的 方式 。 因 此 ， 定 义 民 好 的 目标 
有 助 于 设计 这 些 可 视 化 的 过 程 。 











续 在 促进 探索 的 可 视 化 通常 存在 于 更 专业 的 、 面 向 研究 的 科学 、 
商业 和 其 他 领域 之 中 。 在 这 些 情况 下 ， 其 目标 通常 是 为 了 验证 假设 ， 
回答 具体 问题 或 者 发 现任 何 趋势 、 行 为 或 者 值得 注意 的 关系 。 如 有 果 对 

















于 数据 可 能 揭示 的 规律 不 清楚 ， 设 计 这 些 可 视 化 会 变 得 更 具有 挑战 
性 。 在 答案 不 确定 的 情况 下 ， 设 计 一 些 不 同 的 可 视 化 可 能 是 有 用 的 。 











周期 表 是 这 些 目 的 的 有 趣 的 混合 体 ， 因 为 它 是 用 于 对 已 知 和 未 知 
的 信息 进行 可 视 化 。 该 周期 表 的 结构 是 通过 那 时 已 知 的 元 素 的 属性 定 
义 的 ， 因 此 在 该 情况 下 ， 它 对 现 有 已 知 的 知识 提供 了 参考 ， 正 如 今天 
所 使 用 的 。 然 而 ， 该 结构 导致 了 周期 表 中 产生 一 些 空 日 ， 这 些 空 日 后 
来 用 于 预测 未 发 现 的 元 聚 的 存在 和 行为 。 在 后 一 种 模式 下 ， 表 格 是 研 
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使 可 视 化 变 得 高 效 











在 确保 可 视 化 富 含 信息 量 之 后 ， 下 一 步 是 要 确保 它 是 高 效 的 。 当 
为 了 高 效 而 设计 时 ， 值 得 考虑 的 最 重要 的 方面 是 : 可 视 化 的 每 一 部 分 
内 容 都 将 使 用 户 花 费 更 长 的 时 间 来 找到 在 该 可 视 化 中 的 任何 元 素 。 页 
面 上 的 噪音 数据 和 视觉 噪 首 越 少 ， 读 者 找到 他 们 需要 寻找 的 东西 就 越 
简单 。 如 果 你 所 明确 的 目标 无 法 证 明 某 些 内 容 存在 的 必要 性 ， 试 着 去 


掉 这 些 内 容 。 





视觉 上 突出 重要 的 因素 


当 你 已 经 确定 了 必要 的 内 容 ， 考 虑 其 中 的 某 些 部 分 〈 某 种 特定 的 
关系 或 者 数据 点 ) 是 否 特别 相关 或 者 有 用 。 这 些 内 容 在 视觉 上 可 以 通 
过 几 种 方式 突出 显示 。 它 可 以 更 大 、 更 粗 、 更 亮 、 更 详细 ， 或 者 通过 
辆 图 、 篆 头 或 标签 来 标识 。 男 一 方面 ， 不 太 相 关 的 内 容 可 以 通过 较 柔 
和 的 色彩 弱化 显示 ， 线 条 更 细 或 者 缺乏 细 市 信息 。 例 如 ， 在 伦敦 地 铁 
图 中 的 各 个 区 域 ， 在 视觉 上 没有 被 突出 显示 : 虽然 它们 确实 存在 ， 但 
征 其 相关 程度 显然 弱 于 那些 地 铁 线路 和 站 点 。 














注意 ， 强 调 相 关 性 的 策略 通常 适用 于 数据 展现 ， 而 不 是 数据 人 研 
完 :设计 师 通 过 改变 突出 的 重点 ， 有 意 地 改变 传递 的 信息 。 此 外 ， 突 
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的 有 效 方式 。 


使 用 轴线 表达 含义 并 展示 目 由 信息 





在 减少 可 视 化 噪音 数据 和 文本 数量 的 同时 仍 能 保留 足够 的 信息 的 
一 个 非常 棒 的 方法 是 定义 轴线 ， 然 后 使 用 这 些 轴线 来 指导 可 视 化 中 其 
他 模块 的 位 置 。 定 义 轴线 的 优雅 之 处 在 于 可 以 通过 轴线 对 可 视 化 中 的 
每 个 节点 赋值 ， 而 且 不 需要 涉及 额外 的 标注 操作 。 举 个 例子 ， 周 期 表 
是 由 定义 清晰 的 行 (周期 ) 和 列 〈 分 组 ) 组 成 的 。 可 以 通过 查看 一 个 
元 素 占 有 的 周期 和 所 属 的 分 组 来 了 解 天 于 该 元 素 的 很 多 信息 。 因 此 ， 
言 轧 不 需要 显 式 地 展现 在 元 素 的 表格 单元 中 。 轴 线 还 可 以 用 于 定位 数 
据 集 中 的 某 个 部 分 或 者 某 个 成 员 ， 比 如 查找 特定 周期 的 元 素 、 查 找 南 
方 的 一 些 州 或 者 查找 已 知 位 于 伦敦 的 西北 地 区 的 一 个 地 铁 站 。 定 义 民 
好 的 轴线 对 于 定性 数据 和 定量 数据 部 有 效 。 在 定性 环境 中 ， 轴 线 可 以 
定义 (无 序 的 或 者 杂乱 的 ) 领域 或 分 组 。 而 定量 的 轴线 可 以 提供 信 
轧 ， 文 持 相 关 值 的 查找 。 














相关 部 分 的 切 分 


减少 可 视 化 混乱 ， 使 得 信息 更 易于 理解 的 最 后 一 种 方式 古 ， 把 大 
数据 集 划 分 成 多 个 相似 或 者 相关 的 子 集 并 分 别 可 视 化 。 如 有 条 可 以 获取 
的 信息 可 以 独立 使 用 ， 这 种 方式 效果 不 错 ;， 而 如 果 需 要 和 其 他 数据 集 


HEER, MARSRA o 其 中 的 风险 在 于 当 把 所 有 数据 集中 一 起 
显示 时 ， 可 能 会 发 现 看 起 来 不 相关 的 数据 集中 存在 的 相关 的 、 尚 未 察 
觉 的 关联 关系 ， 这 种 关系 在 这 种 显示 方式 下 才 会 变 得 很 明显 。 

















慎重 使 用 惯例 


当 已 经 充分 考察 预期 的 信息 、 应 用 场景 和 数据 对 你 的 特定 情景 的 
影响 时 ， 在 可 视 化 中 应 用 一 些 标准 的 展现 方式 和 惯例 征 值 得 的 。 有 意 
识 地 、 恰 当地 运用 惯例 将 会 加 速 学 习 ， 便 于 读者 记忆 。 在 使 用 了 惯例 
的 情况 下 ， 只 要 和 前 述 的 几 项 因素 没有 冲突 ， 采 用 惯例 会 非常 强大 且 
实用 。 本 文 所 举 的 两 个 例子 使 用 了 默认 的 、 传 统 的 表现 方式 来 表示 元 
素 符 号 、 地 铁 线 色 彩 和 指南 针 方 向 。 这 些 因 素 绝 大 部 分 看 起 来 太 目 然 
了 ， 不 值得 一 提 或 注意 ， 而 实际 情况 也 正 是 如 此 。 写 们 很 容易 被 理 
解 ， 而 且 可 以 精确 地 表达 消 轧 ， 用 户 可 以 轻易 迅速 地 理解 以 这 种 方式 
表达 的 信息 ， 而 且 几 乎 不 需要 用 户 或 者 设计 师 做 出 任何 额外 的 努力 。 
这 正 是 默认 方式 和 惯例 发 挥 作用 的 理想 方式 。 














充分 利用 美感 


一 旦 满足 了 充实 和 高 效 的 需求 ， 终 于 可 以 考虑 可 视 化 设计 的 美感 
了 。 审 类 元 素 可 以 是 纯粹 狐 饰 性 的 ， 或 者 十 增加 可 视 化 成 末 被 接纳 的 
机 会 的 又 一 个 因素 。 在 某 些 情况 下 ， 可 视 化 处 理 方式 可 以 对 信息 进行 
元 余 编码 ， 因 此 一 个 给 定 的 值 或 分 类 可 能 使 用 位 置 和 闫 色 来 描述 ， 可 
能 使 用 文字 标 等 和 形状 的 大 小 来 措 述 ， 或 者 使 用 其 他 的 属性 对 来 摘 
述 。 与 单一 编码 相 比 ， 元 余 编 码 可 以 帮助 读者 更 快 、 更 容易 地 区 分 感 
知 和 了 解 更 多 信息 。 








可 以 选择 一 些 其 他 方式 以 帮助 理解 : 熟悉 的 色彩 板 、 图 标 、 布 
局 ， 以 及 和 参考 文档 或 者 期 望 的 使 用 场景 相关 的 全 局 风格 。 熟 悉 的 外 
观 和 感觉 可 以 使 读者 更 轻松 或 者 舒适 地 接受 展现 处 理 的 信息 。 (但 
征 ， 要 注意 避免 仅仅 为 了 风格 本 喘 而 使 用 熟悉 的 风格 ， 避 免 像 那些 拙 
和 荔 地 模仿 周期 表 和 地 铁 图 的 设计 师 们 陷入 同样 的 陷阱 。) 


有 时 ， 设 计 师 可 能 想 要 做 出 某 些 选择 以 干扰 一 些 或 者 所 有 的 可 视 
化 使 用 方式 。 这 可 能 是 通过 弱化 显示 其 他 信息 ， 以 此 为 代价 来 突出 某 
些 特定 的 消 思 ， 为 了 以 乞 术 性 的 表达 方式 、 为 了 使 可 视 化 适应 于 某 个 
有 限 的 空间 ， 或 者 只 征 为 了 使 可 视 化 更 让 人 和 贰 心 悦目 或 者 感 兴趣 。 








要 它们 是 在 对 全 局 效用 的 影响 已 经 了 解 之 后 的 有 意 为 之 ， 这 些 都 是 合 
理 的 选择 。 


付 诺 实践 





我 们 一 起 来 看 男 一 个 成 功 的 、 数 据 驱动 的 可 视 化 例子 ， 该 例子 把 
这 些 可 视 化 原则 付 诸 应 用 : 《纽约 时 报 》 的 2008 年 总 统 竞选 地 图 [1 。 
图 1-3 是 类 国 的 标准 地 图 ， 每 个 州都 以 颜色 编码 来 表示 在 该 州 范 远 获胜 
的 候选 人 (红色 表示 共和 党 候选 人 在 该 州 竞选 获胜 ， 蓝 色 表示 民主 党 
候选 人 获胜 ) 。 该 图 看 起 来 像 是 一 个 利用 了 默认 框架 的 非常 合理 的 可 
视 化， 一 张 国 家 地 理 图 。 然 而 ， 实 际 情况 是 这 样 的 :准确 的 地 理 摘 
述 ， 最 好 情况 下 这 些 信 息 充其量 也 只 是 无 关 紧 要 的 ， 而 最 坏 情 况 下 它 
们 可 能 会 产生 很 多 误导 。 











需要 270 张 电子 选票 才能 获胜 
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图 1-3: 地 理 上 准确 的 美国 竞选 投票 结果 图 ( 见 彩 图 3) 


新 泽 西 州 〈《 呈 花生 形状 的 州 ， 在 宾 儿 法 尼 亚 州 的 东部 和 纽约 州 的 
南部 ， 面 积 太 小 以 致 无 法 标注 出 来 ) 的 面积 是 略 多 于 8700 平 方 英 里。 
Idaho ` Montana ` Wyoming ` North Dakota 和 South Dakota 这 5 个 州 的 所 
有 区 域 的 面积 总 共 超 过 47.6 万 平方 现 里 ， 大 约 是 新 泽 西 州 的 面积 的 55 
倍 ， 如 图 1-4 所 示 。 如 果 我 们 对 于 每 个 州 的 准确 的 地 理 、 形 状 、 大 小 和 
位 置 感 兴趣 ， 这 将 真 的 是 一 个 很 不 错 的 地 图 。 然 而 ， 在 总 统 竞选 这 样 
的 背景 下 ， 我 们 关心 的 是 基于 每 个 州 的 选票 计数 的 影响 。 实 际 上 ， 以 
上 5 个 州 的 选票 加 起 来 总 共 只 有 16 张 ， 仅 仅 比 新 泽 西 州 的 15 张 选票 多 出 
一 张 而 已 。 因 此 ， 地 理 上 准确 的 地 图 实际 上 对 于 反映 选举 方面 的 影响 
是 非常 不 准确 的 。 











1-4: 5 个 州 和 新 泽 西 州 的 相对 面积 大 小 ( 见 彩 图 4) 


一 个 州 的 面积 和 它 对 选举 产生 的 影响 力 没有 太 大 关系 ;在 这 种 情 
况 下 ， 需 要 一 种 完全 不 同 的 可 视 化 来 准确 地 表示 相关 的 数据 ， 满 足 可 
视 化 需求 。 为 此 ，《 纽 约 时 报 》 还 生成 了 男 一 个 地 图 视图 ( 见 图 1- 
5) ， 在 该 地 图 中 ， 每 个 州 是 由 相当 于 选票 数 的 很 多 方块 组 成 。 和 州 的 
大 小 相 比 ， 这 种 选举 上 相应 的 视图 已 经 失去 了 地 理 准确 性 ， 而 考虑 到 
州 的 大 小 ， 则 几乎 失去 了 所 有 的 地 理 准确 性 。 
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图 1-5: 按 相应 比例 加 权 的 美国 选票 的 结果 图 ( 见 彩 图 5) 





然而 ， 美 国 各 个 州 的 相对 位 置 基本 上 还 保留 着 ， 它 允许 读者 找到 
他 们 感 兴趣 的 特定 的 州 并 探测 区 域 趋势 。 这 里 牺牲 地 理 位 置 的 好 处 是 
当 显 示 每 个 沈 派 显得 的 选票 和 每 个 州 的 相对 有 影响 时 ， 该 可 视 化 是 非常 





准确 的 。 举 个 例子 ， 当 我 们 查看 新 的 地 图 ， 把 新 译 西 州 和 前 面 提 到 的 5 


个 州 的 大 小 做 比较 ， 可 以 准确 地 搬 述 15 到 16 个 范 选 联盟 ， 如 图 1-6 所 
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图 1-6: 5 个 州 和 痢 泽 西 州 的 相对 选票 影响 














你 可 能 已 经 注意 到 这 里 做 出 了 另 一 个 权衡 : 因为 读者 无 法 看 清 每 
个 方块 的 边界 ， 他 们 无 法 简单 地 在 我 们 比较 的 每 个 领域 都 计数 15 到 16 
个 方块 。 此 外 ， 因 为 要 尽 可 能 地 维持 每 个 州 的 形状 ， 图 1-6 所 示 的 红色 
和 监 色素 集 的 分 区 形状 区 别 显 着 ， 使 得 难以 一 腿 比 较 它 们 的 相对 区 域 
面积 。 因此， 这 是 充分 利用 惯例 (在 这 个 例子 中 十 各 个 州 的 形状 ) 达 
到 必要 的 平衡 以 及 高 效 地 、 直 日 地 表现 数据 的 一 个 很 好 的 例子 。 


该 可 视 化 的 成 功 之 处 在 于 设计 师 愿意 探 脱 标准 的 、 默 认 的 地 图 ， 
从 而 创建 一 个 主要 基于 相关 的 源 数 据 的 可 视 化 表示 。 其 结果 是 一 个 融 
度 定 制 的 图 像 ， 该 图 像 对 于 预期 目标 更 精确 和 有 用 ， 即 使 不 能 很 好 地 
适应 于 典型 的 地 图 任务 ， 如 导航 。 《在 那 种 情况 下 ， 它 类 似 于 地 铁 
图 ， 为 非常 特殊 格式 的 信息 查找 进行 了 优化 ， 其 代价 十 牺牲 了 通用 的 
地 理 上 的 准确 性 。) 








[1] 数据 来 源 : http: //elections.nytimes.com/2008/president/whos- 
ahead/key-states/map.html ° 


结束 语 


里 然 本 章 只 是 简要 介绍 了 设计 成 功 的 可 视 化 的 一 些 策 略 和 考虑 ， 
但 是 它 为 成 功 的 可 视 化 葛 定 了 坚实 的 基础 。 实 现 可 视 化 之 美的 核心 在 
于 专注 于 使 可 视 化 有 用 、 相 关 和 高 效 ， 并 且 使 用 默认 方式 和 有 和 意 的 忆 
术 解 决 方案 。 这 些 建 议 将 帮助 我 们 确保 最 终 产 品 是 新 颖 、 充 实 和 美丽 
的 。 


第 2 革 BSA HESS AY E he yl] ulin 3 (8, 
可 视 化 中 的 重要 性 Matthias Shapiro 


言 轧 可 视 化 这 门 乞 术 在 某 种 程度 上 似 一 头 “ 怪 兽 ”。 很 少 有 学 科 需 
要 其 从 业 人 员 具 备 如 此 多 的 技能 。 最 佳 可 视 化 的 创建 者 不 仅 需 要 具备 
一 些 天 赋 ， 而 且 还 要 能 够 快速 地 在 不 同 技能 之 间 切 换 。 此 外 ， 在 完成 
可 视 化 的 最 后 阶段 ， 创 建 者 可 能 会 发 现 前 期 舍弃 的 某 些 信息 对 于 充分 
理解 作品 是 至 关 重 要 的 ， 也 可 能 发 现 前 期 的 某 个 计算 结果 是 不 精确 
的 。 











Ben Fry 在 他 的 优秀 著作 《Visualizing Data) (O'Reilly 出 版 社 ) 中 
指出 创建 信息 可 视 化 包括 以 下 7 个 阶段 : 获取 、 解 机 、 过 滤 、 挖 气 、 展 
现 、 提 炼 和 交互 。 每 个 阶段 都 需要 具备 特定 水 平 的 技术 或 艺术 才能 ， 
而 信息 可 视 化 需要 兼 具 多 项 才能 。 在 数据 获取 和 人 解析 阶段 ， 信 息 可 视 
化 艺术 家 可 能 已 经 开始 思考 应 该 如 何 和 它 交 互 。 而 在 对 展现 信息 进行 
提炼 的 过 程 中 ， 他 也 可 能 会 回想 起 ， 在 过 滤 阶 段 的 某 个 处 理 步骤 过 滤 
掉 的 某 些 数据 实际 上 是 相关 的 。 最 佳 可 视 化 往往 是 由 知识 面 宽 广 、 多 
才 多 艺 的 个 人 独立 构想 和 完成 ， 或 者 是 通过 一 个 能 够 紧密 协作 的 小 团 
队 合力 完成 。 在 这 种 小 型 、 灵 活 的 环境 下 ， 各 种 才能 可 以 相互 影响 促 
进 ， 进 而 创造 出 令 人 震撼 的 图 像 或 交互 产品 ， 它 所 描述 概念 的 方式 比 
起 一 串 数 字 让 人 感觉 更 贴切 自然 。 


























创建 好 的 信息 可 视 化 需要 具备 很 多 才能 ， 虽 然 这 已 经 被 人 们 广 为 
认可 ,但 古 仍然 存在 一 项 技能 在 更 正式 的 场合 下 往往 会 被 人 们 名 略 
可 能 因为 几乎 每 一 个 可 视 化 创造 者 都 潜意识 中 做 到 了 这 一 点 ， 也 
可 能 因为 它 是 整个 可 视 化 过 程 如 此 自然 而 然 的 一 个 部 分 以 至 于 看 起 来 
似乎 不 值 一 握 。 这 种 技能 束 是 讲述 故事 的 能 





故事 拥有 非凡 的 魔力 ， 可 以 让 我 们 集中 注意 力 ， 帮 助 我 们 理解 为 
什么 所 展现 的 数据 对 我 们 生活 的 某 些 方面 是 重要 的 或 相关 的 。 只 有 在 
特定 的 场景 下 ， 数 据 才 是 有 意义 的 ， 而 将 数据 作为 故事 的 一 部 分 是 让 
数据 产生 持久 效应 的 最 住 方式 。 最 有 效 的 信息 可 视 化 会 成 为 读者 (或 
者 用 户 ) 心中 的 故事 或 叙事 的 中 心情 条 。 














不 是 每 一 个 信息 可 视 化 都 需要 讲述 一 个 故事 。 有 些 可 视 化 看 上 去 
号 很 关 ， 其 本 身 就 是 优雅 的 艺术 作品 。 然 而 ， 绝 大 部 分 可 视 化 都 有 一 
个 目标 ， 需 要 把 数据 置 于 某 种 故事 情节 中 以 有 意义 的 方式 进行 展示 。 








问题 + 可 视 化 数据 + 场景 = 故事 





绝 大 多 数 可 视 化 故事 会 以 某 类 问题 作为 开场 ， 引 导读 着 进入 某 个 
主题 或 者 场景 中 ， 在 该 主题 或 场景 中 ， 数 据 所 强 舍 的 意义 最 为 丰富 。 
这 种 引导 方式 可 以 是 显 式 的 ， 也 可 以 旦 隐 式 的 ， 但 是 其 场景 必须 清晰 
明确 。 作 为 开场 日 的 问题 包含 了 该 故事 的 前 提 和 引言， 引领 读者 到 达 
数据 能 够 控制 整个 故事 线索 的 关键 点 上 。 
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本 的 一 部 分 。 可 视 化 场景 提供 了 解答 下 述 问 题 的 信息 : 








:我 们 正在 看 的 是 什么 数据 ? 
-这 份 数 据 存 在 于 什么 时 间 段 内 ? 
哪些 显著 的 事件 或 者 变化 影响 了 这 些 数据 ? 


请 看 独 2-1 所 示 的 可 视 化 。 假 设 用 户 没 有 相应 的 表 景 知识 ， 当 他 看 
到 该 图 时 ， 我 们 确定 他 会 理解 这 份 数 据 是 按照 时 间 轴 映射 的 ， 而 该 时 
间 轴 与 菏 次 选举 有 关 。 除 此 之 外 ， 几 乎 没有 任何 有 价值 的 场景 信息 可 
以 引导 用 户 去 弄 清 该 可 视 化 的 侣 义 。 


如 有 条 更 进一步 ， 假 设 用 户 对 该 可 视 化 作品 上 展现 的 一 些 较为 有 名 
的 名 字 比 较 熟 悉 ， 我 们 就 可 以 假定 他 将 了 解 到 该 可 视 化 作品 展示 的 古 
2008 年 美国 总 统 选 举 前 两 年 的 总 统 候选 人 的 一 些 衡 量 指标 。 





只 有 当 用 户 点 击 了 右上 角 的 问号 标记 ， 才 会 显示 完整 的 场景 说 
明 ， 那 时 该 用 户 才 会 知道 这 个 可 视 化 作品 映 冉 的 是 每 位 忌 统 候选 人 某 
一 周 在 《纽约 时 报 》 上 被 提 及 的 次 数 。 一 旦 了 解 了 这 个 信息 ， 用 户 就 
可 以 明日 该 可 视 化 粗略 地 反映 了 由 《纽约 时 报 》 搂 稿 人 决定 的 新 闻 对 
这 些 总 统 候选 人 的 关注 度 。 
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图 2-1: 设计 工具 Silverlight H! 生成 的 可 视 化 ( 见 彩 图 6) 


回 到 我 们 之 前 列 出 的 那些 问题 ， 我 们 现在 已 经 知道 正在 看 什么 数 
据 以 及 其 时 间 范 围 。 该 可 视 化 是 交互 式 的 : 如果 用 户 点 击 最 上 方 的 Play 
(播放 ) 按钮 ， 它 会 沿 着 时 间 轴 顺 次 弹出 一 些 点 ， 显 示 可 能 以 某 种 方 
式 对 数据 产生 了 影响 的 重要 事件 ( 见 图 2-2) ° 


除了 这 些 线索 ， 用 户 还 可 以 把 目 己 所 知 的 总 统 范 选 知识 作为 该 数 
据 的 额外 的 场景 信息 。 他 可 能 回想 起 民主 党 内 竞选 时 发 生 在 希拉 里 - 殉 








林 顿 ( (Hllary Clinton) 与 巴 拉 克 :奥巴马 ( (Brack Obama) 间 的 激烈 角 
逐 ， 这 一 点 在 现实 中 的 反映 就 是 从 2008 年 4 月 到 5 月 ， 他 们 俩 都 保持 了 
很 高 的 新 闻 关 注 度 ， 而 约翰 . 麦 凯 恩 ( hn McCain) 因 为 早 在 3 月 初 即 已 
经 确保 了 在 共和 党 内 竞选 的 胜利 地 位 ， 因 而 在 那 段 时 间 的 新 闻 关 注 度 
上 落后 于 他 们 俩 。 





当 提出 一 个 问题 “在 2008 年 总 统 竞 选 过 程 中 ，《 纽 约 时 报 》 提 及 各 
个 候选 人 的 频 度 有 多 高 ? ”之 后 ， 就 开始 引发 一 个 故事 。 该 可 视 化 为 这 
个 故事 提供 了 吸引 和 信心 的 可 视 化 部 分 ， 帮 助 用 户 在 一 分 钟 内 重 温 这 一 
历时 两 年 的 总 统 竞选 大 戏 。 


2008 


o—d}-o 
图 2-2: 这 个 视觉 特效 吸引 人 们 注意 那些 可 能 影响 候选 人 受到 的 新 闻 


关注 度 的 重要 事件 
[1] 参见 http: //tr.im/I2Gb ° 


创建 有 效 的 可 视 化 的 步 又 
在 创建 信息 可 视 化 时 ， 我 通常 会 按照 下 述 的 几 个 关键 步骤 进行 : 
1. 制 定 问题 。 
2. 收 集 数 据 。 


3. 应 用 一 种 可 视 化 展现 方式 。 
制定 问题 


提出 驱动 所 要 讲述 的 故事 的 问题 ， 这 并 非 一 定 需 要 在 可 视 化 之 旅 
的 开始 阶段 完成 。 在 你 的 大 脑 中 已 经 有 一 个 确定 性 的 问题 之 前 ， 开 始 
深入 控 握 数据 也 不 是 一 件 坏事 。 通 章 情 况 下 ， 只 有 当 我 们 对 数据 有 了 
深刻 的 理解 之 后 ， 我 们 才能 确定 如 何 提出 恰当 的 问题 。 尽 管 如 此 ， 在 
收集 和 过 滤 必 要 的 数据 时 ， 提 出 一 个 问题 《或 者 至 少 大脑 中 思索 一 个 
或 者 几 个 问题 ) AKARA ° 





随 看 收集 到 更 多 的 数据 ， 你 可 能 考虑 从 某 个 主题 切入 ， 专 广 于 数 
据 搜 索 和 问题 提炼 。 举 个 例子 ， 假 设 我 们 想 表 达 这 样 一 个 观点 : 执行 
美国 人 口 普 查 是 一 项 庞大 的 任务 。 对 于 启动 数据 搜索 而 言 ， 这 是 个 不 
错 的 主题 ， 因 为 其 闻 兰 面 足够 宽广 ， 所 以 存在 很 多 数据 能 够 提供 场 


景 ， 文 持 这 个 观点 。 我 们 可 以 找到 相关 的 数据 ， 并 创建 基于 下 述 几 点 
的 一 个 可 视 化 : 





收集 到 的 调查 问卷 的 数量 。 


-使 用 过 的 铅笔 的 数量 。 


:人口 普查 工作 人 员 的 行程 英里 数 。 








我 最 喜欢 的 与 类 国人 口 普 得 相 关 的 数据 是 类 国联 邦 雇员 数 。 统 计 
数据 显示 了 某 个 人 口 癌 查 年 的 3 月 到 7 月 间 ， 联 邦 雇员 数 从 20 万 疯 升 到 
30 万 。 而 当 人 口 普查 结束 后 ， 座 员 数 义 会 回落 。 





我 们 最 终 所 选用 的 具体 问题 对 最 终 的 可 视 化 展现 有 很 大 影响 。 举 
个 例子 ， 我 们 可 能 会 问 : “一 次 人 口 普查 所 需 的 全 部 信息 需要 多 少 纸张 
来 记录 ?”， 然 后 展示 调查 一 座 小 城市 所 需 的 一 把 纸张 ， 或 者 我 们 可 能 
这 样 问 : “对 这 个 国家 的 所 有 人 扣 一 次 名 ， 需 要 花费 多 少 人 力 ? ”， 然 
后 用 一 些 图 像 来 展示 在 人 口 普 查 期 间 联 邦 雇员 数 的 上 升 。 这 些 问 题 都 
和 美国 人 口 普 碍 范畴 下 最 原始 的 话题 相关 ， 但 是 由 于 选用 了 不 同 的 数 
据 集 ， 生 成 的 可 视 化 作品 也 完全 不 同 。 








当 为 创建 信息 可 视 化 而 提出 问题 时 ， 我 们 应 该 尽 可 能 地 关注 以 数 
据 为 中 心 的 问题 。 那 些 以 “在 哪里 *( (were)、“ 什 么 时 间 *( (wen) ` “A 
多 少 ”( (hw much) 或 者 “有 多 频繁 *( (hw often) 开 头 的 问题 通常 都 是 不 


错 的 开始 : 它们 使 我 们 专注 于 在 特定 的 参数 集合 内 查找 数据 ， 因 此 更 
有 可 能 找到 适用 于 可 视 化 的 数据 。 


对 于 以 “为 什么 ”( 《wy) 开 头 的 问题 ， 需 要 格外 小 心 。 它 意味 着 你 
开始 从 对 数据 的 较为 正式 的 描述 转 入 数据 分 析 。 


收集 数据 


准确 地 找到 所 和 需 的 数据 是 一 个 非常 困难 的 任务 。 通 常 ， 最 好 从 已 
经 可 用 的 数据 着 手 并 尽量 找到 一 种 方式 来 搬 绘 它 ， 而 不 是 笑 试 目 己 去 
收集 数据 。 也 整 是 说 ， 最 好 从 一 个 数据 集 出 发 正如 之 前 所 提 到 
的 ) ， 从 数据 中 找到 一 些 模式 之 后 再 构建 问题 。 如 果 你 是 为 了 一 个 既 
定 的 目标 创建 一 个 数据 可 视 化 ， 而 不 是 出 于 兴趣 或 者 纯粹 的 好 奇 心 ， 
那么 很 有 可 能 你 已 经 有 了 一 个 可 用 的 数据 集 。 尽 管 如 此 ， 仍 然 存 在 一 
些 数 据 集 ， 它 们 可 能 可 以 在 工作 的 某 些 方面 激发 你 的 灵感 或 者 提供 某 


些 信息 。 





有 很 多 不 错 的 地 方 提供 了 可 以 访问 的 数据 。 其 中 一 个 最 大 、 最 丰 
富 的 资源 库 是 Data.gov 网 站 ( (htp: /www.data.gov)。 这 个 站 点 上 存放 
了 庞大 的 数据 集合 ， 它 涵盖 了 大 量 领 域 ， 既 包括 乌 类 的 迁徙 ， 也 包括 
专利 目录 ， 还 包括 国债 收益 统计 和 联邦 预算 数据 。 其 他 优秀 的 数据 源 
还 包括， 





.美国 人 口 普查 局 ( (htp: /www.census.gov) 的 网 站 上 提供 了 种 类 广 
泛 的 人 口 统 计 和 地 理 信 息 数据 。 


.美国 劳动 统计 局 ( (htp: /www.bls.gov) 提 供 了 美国 就 业 方面 的 广 
泛 数据 (点 击 “Databases and Tables” 标 签 ， 然 后 向 下 滚动 页 面 到 历史 新 





闻 发 布 表单 ( (Hstorical News Release Tables) 处 ， 可 以 找到 最 简单 的 数 
据 访 问 入 口 ) 。 


- AZT FR) WAPI (http: //developer.nytimes.com) 提 供 了 对 海量 
数据 集 易于 访问 的 API 接 口 ， 包 括 国会 投票 、 畅 销 书 列 表 、 文 章 检 
索 、 ` 纽约 市 的 房地产 开盘 和 销售 信息 等 。 





一 旦 获取 到 了 原始 数据 ， 束 需要 考虑 数据 的 解 林 、 组 织 、 分 组 或 
者 修改 ， 以 便 可 以 从 中 识别 出 模式 或 者 抽取 出 想 要 描绘 的 特定 信息 
这 个 过 程 通常 就 是 众所周知 的 “数据 再 加 工 ”( (dta munging) 过 程 ， 而 
且 通 党 是 即时 地 “ 玩 卉 ”数据 直到 感 兴趣 的 模式 出 现 。 如 采 感 觉 这 个 过 
程 听 起 来 有 些 台 糊 或 者 不 够 具体 ， 不 要 担心 ， 在 下 一 小 节 中 我 们 将 以 
实践 指南 的 方式 完整 地 介绍 一 个 数据 再 加 工 的 例子 。 





应 用 一 种 可 视 化 展现 方式 





既然 我 们 获取 到 了 数据 ， 接 下 来 需要 做 的 就 是 确定 应 该 如 何 描述 
它 。 这 意味 着 需要 决定 采用 何 种 可 视 化 展现 方式 来 描述 数据 才能 帮助 
读者 更 好 地 理解 。 














一 种 可 视 化 展现 方式 就 是 茶 种 可 视 化 维度 ， 不 同 的 数据 以 不 同 的 
维度 展示 。 举 个 例 于 ， 一 个 XY 坐 标 图 就 是 一 种 简单 的 可 视 化 展现 方 
式 ， 它 把 x,y 数 据点 映射 到 一 个 二 维 平面 中 。 当 对 足够 多 的 数据 点 进行 
映射 后 ， 即 使 原始 数据 本 身 没有 可 以 立即 识别 的 模式 ， 可 能 还 是 会 产 
生 显而易见 的 可 视 化 模式 。 











让 我 们 一 起 查看 一 些 最 常用 的 可 视 化 展现 方式 。 
尺寸 


矿 才 可 能 是 最 单 用 的 可 视 化 展现 方式 ， 而 且 是 理所当然 的 。 当 辨 
别 两 个 对 象 时 ， 我 们 可 以 通过 尺寸 来 快速 地 区 分 它们 。 此 外 ， 使 用 尺 
寸 可 以 加 快 理解 两 组 不 熟悉 的 数字 之 间 的 区 别 。 听 说 或 知道 美沙 酮 
(一 种 镇 静 剂 一 一 译 者 注 ) 是 英国 最 致命 的 毒品 是 一 回 事 ， 而 看 到 如 
图 2-3 所 示 的 因 吸 食 美 沙 酮 而 致死 的 人 数 与 吸食 其 他 毒品 而 致死 人 数 的 


信息 则 完全 是 另 一 回 事 儿 。 








毒品 每 10 000 个 服用 
者 中 的 死亡 人 数 


美沙 酮 





可 卡 因 23 © 





图 2-3: 来 源 于 David McCandless 对 “世界 上 最 致命 的 毒品 ”的 信息 可 祝 
化 


虽然 尺寸 是 一 种 非常 实用 且 直 观 的 展现 方式 ， 但 它 也 经 营 被 滥 
用 。 很 多 结构 不 民 的 图 形 只 是 起 到 了 误导 和 寓 消 视听 的 作用 ， 这 往往 
征 因 为 其 作者 虽然 想 要 对 一 些 数 据 进 行 可 视 化 ， 但 是 却 仅仅 只 知道 一 
种 可 以 展示 它们 的 可 视 化 方式 。 





色彩 
a 


色彩 是 展现 大 数据 集 的 一 种 优秀 方式 。 我 们 可 以 通过 色彩 识别 出 
很 多 层次 和 色调 ， 可 以 以 很 高 的 分 辨 率 来 查看 区 别 。 这 一 点 使 得 色彩 
成 为 展现 宏观 趋势 的 必然 选择 ， 这 种 用 法 我 们 经 常会 在 气象 图 中 看 
到 。 由 于 这 个 原因 ， 色 彩 通 前 被 用 于 标识 大 数据 集中 存在 的 模式 和 异 


Eo 





图 2-4 是 与 股票 相关 的 历时 3 个 月 的 一 组 数据 缩放 图 。 





图 2-4: Motley Fool CAPS 中 网 站 上 在 几 个 月 内 关注 度 最 高 的 30 只 股 
票 ， 使 用 红 绿 色 阶 对 其 进行 了 可 视 化 ( 见 彩 图 7) 


虽然 该 可 视 化 因为 类 型 太 小 以 致 无 法 阅读 ， 但 我 们 却 可 以 很 容易 
识别 出 正 增长 或 者 负增长 的 行 。 我 们 可 以 很 轻松 地 对 数据 中 的 趋势 做 
出 全 面 的 评估 。 


对 于 规模 较 小 的 数据 集 或 者 相互 之 间 区 分 度 不 大 的 数据 ， 色 彩 的 
作用 就 不 明显 。 如 果 数 据 中 没有 鲜明 的 色 阶 变化 ， 即 使 是 训练 有 素 的 
人 和 人， 也 难以 识别 出 其 中 重要 的 区 别 。 


例如 ， 假 设 我 们 有 个 范围 1~100 的 数据 集 ， 以 及 一 个 色彩 板 ， 其 
颜色 变换 从 红色 (表示 1) 到 黄色 (50) 到 绿色 (100) 。 在 这 样 的 色 
彩 板 中 ， 对 于 图 2-5 中 所 示 的 只 有 10 个 百分点 之 差 的 两 个 数据 各 ， 正 如 
你 所 观察 到 的 ， 其 区 分 度 很 小 ， 而 且 可 能 对 于 很 多 读者 都 难以 分 辩 。 


45% 55% 100% 
Al 2-5: 在 色彩 可 视 化 中 ， 色 彩 图 像 在 45% 和 55% 范 围 之 间 的 区 别 的 
展现 ( 见 彩 图 8) 





如 采 你 正在 创建 可 视 化 ， 确 保 读 者 能 够 区 分 出 在 45% 和 55% 的 数据 
点 是 很 重要 的 。 为 此 你 可 能 需要 改变 一 些 颜 色 需 要 发 生变 换 的 点 ， 或 
者 完全 不 拘泥 于 色彩 展现 ， 不 采用 色彩 作为 主要 的 展现 方式 。 





还 应 该 增加 文字 说 明 以 帮助 色盲 的 读者 ， 因 为 几乎 每 10 个 人 当中 
就 有 一 个 是 色盲 。 如 果 你 希望 你 的 可 视 化 能 够 履 盖 尽 可 能 多 的 读者 ， 
你 可 能 会 考虑 使 用 黑白 色 阶 ， 而 不 是 红 绿 色 阶 。 关 于 设计 和 人 色盲 方面 
的 更 多 信息 ， 请 访问 We Are Colorblind (我 们 是 色 言 ) 网 站 
( (htp: /wearecolorblind.com)， 该 Web 站 点 专门 为 色盲 人 士 而 设计 。 


[1] Motley Fool CAPS 征 一个 理财 谷 询 隐 网 站 ， 其 主页 是 
http: //caps.fool.com/ 


[2] 指 的 是 图 2-5 中 位 于 中 间 的 459% 和 559% 的 两 个 数据 。 


位 置 








基于 位 置 的 展现 方式 束 古 把 数据 和 某 些 类 型 的 地 图 关联 起 来 ， 或 
着 把 它 和 一 个 真实 或 虚拟 地 方 相关 的 可 视 化 元 素 进 行 关联。 日 第 生 活 
中 基于 位 置 的 可 视 化 的 一 个 例子 是 ， 为 了 方便 选择 座位 而 提供 给 顾客 
的 关于 飞机 或 剧院 的 一 个 简单 的 轮廓 。 


在 图 2-6 中 ， 我 们 观察 到 在 美国 Florida 州 的 地 图 上 显示 的 从 1996 年 
到 2008 年 的 各 个 郡 的 犯罪 比率 。 





1996 
每 10 万 人 口 的 犯罪 数 


2008 
p 每 10 万 人 口 的 犯罪 数 
a a + 


图 2-6: Florida “SabAYHUR , iio NTA] ABI ERR eo Tah 
的 犯罪 比率 ( 见 彩 图 9) 





和 











当 观 察 者 对 于 所 描述 的 位 置 比较 熟悉 时 ， 位 置 展现 方式 对 于 可 视 
化 会 特别 有 价值 。 只 要 对 所 展现 的 位 置 有 一 定 的 了 解 ， 观 察 者 就 可 以 





把 他 们 的 个 人 至 景 和 可 视 化 关联 起 来 ， 并 且 可 以 基于 对 该 地 区 的 个 人 


经 验 来 下 定 结论 。 


网 络 


网 络 展现 方式 显示 了 数据 点 之 间 的 二 元 连接 ， 在 碍 看 这 些 数据 点 
之 间 的 关系 时 很 有 帮助 。 在 线 网 络 可 视 化 如 雨后春笋 ， 它 们 使 得 人 们 
可 以 看 到 他 们 在 Facebook 上 的 朋友 或 者 在 微 博 Twitter 上 的 关注 者 的 地 图 
[1] o 














图 2-7 显 示 了 我 的 Facebook 朋 友 以 及 他 们 当中 彼此 互 为 朋友 关系 的 
人 数 的 网 络 可 视 化 。 


通过 该 网 络 映射 ， 我 们 可 以 一 目 了 然 地 看 出 我 所 拥有 (或 被 拥 
有 ) 的 不 同 的 社交 网 络 。 此 外 ， 各 个 组 的 密度 和 它们 的 社交 亲密 关系 
的 对 应 非常 吻合 。 





对 于 网 络 可 视 化 ， 需 要 记 住 的 一 点 是 ， 如 果 这 些 可 视 化 不 是 精心 
构建 的 ， 那 么 成 生 上 万 的 数据 点 可 能 会 变 成 视觉 次 乱 的 连接 ， 它 们 对 
于 我 们 增强 了 解 这 些 连接 的 渔 义 生 没 有 帮助 的 。 





盐湖 城 朋友 、、 


FREMA 
meee 
暑期 夏令 营 朋 友 


Al 2-7: 我 的 Facebook 朋 友 关 系 的 网 络 可 视 化 的 关系 泻 染 图 


时 间 





随时 间 变 化 的 数据 (股票 报价 、 选 举 结 采 等 ) 通常 是 根据 时 间 轴 
进行 描绘 。 然 而 ， 最 近 几 年 ， 具 备 动画 功能 的 软件 使 我 们 能 够 以 不 同 
的 方式 来 朱 绘 这 些 数据 。 像 《纽约 时 报 》 的 动画 “Twitter Chatter During 
the Super Bowl”?! ( 见 图 2-8) 把 一 段 较 长 的 时 间 进行 压缩 ， 从 而 使 得 
我 们 可 以 在 加 速 环 境 中 观察 到 数据 的 变化 。 


点 击 动画 左上 角 的 Play (播放 ) 按钮 启动 动画 ， 在 全 国 范围 内 ， 和 
美国 橄 槛 球 超 级 杯 大 赛 ( (Sper Bowl) 相 关 的 tweet (WE) 消息 中 使 用 
最 频 党 的 单词 ， 在 比赛 过 程 中 会 随 着 其 使 用 频率 的 增长 或 减少 而 被 展 
示 出 来 。 





该 可 视 化 为 用 户 提供 了 一 系列 有 用 的 随时 间 变 化 的 脉络 线索 ， 显 
示 了 在 那 时 发 生 的 主要 事件 。 通 过 这 种 方式 ， 作 者 提供 了 宝贵 的 背景 
言 息 ， 使 用 户 无 须 特意 记 住 比赛 是 如 何 结束 的 。 相 反 ， 他 们 可 以 专注 
于 全 国 范 围 内 的 tweet 消 奶 中 所 用 到 的 单词 ， 当 有 重要 事件 驱动 数据 
时 ， 让 应 用 给 他 们 发 出 报警 。 
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应 用 多 种 可 视 化 展现 方式 








很 多 优秀 的 信息 可 视 化 使 用 多 种 视觉 展现 方式 来 全 面 展现 数据 。 
在 一 个 在 线 应 用 
NameVoyager(http: //www.babynamewizard.com/voyager) 中 ， 用 户 可 以 
输入 一 个 名 称 的 前 几 个 字母 ， 然 后 查看 历史 上 有 多 少 人 以 该 字母 为 开 
头 给 他 们 的 孩子 命名 ( 见 图 2-9) 





>BETH ‘ [m ) bott 2 snk Za 5 N RA Names starting waith 








图 2-9: NameVoyager 的 孩子 名 字 探 索 图 显示 的 逐年 的 名 字 频 率 〈 见 
彩 图 10) 


该 图 使 用 两 个 维度 进行 可 视 化 。 第 一 个 维度 是 时 间 : 通过 时 间 
轴 ， 对 以 输入 的 字母 为 开头 的 名 字 的 使 用 频率 进行 展现 。 第 二 个 维度 








是 大 小 ;图 像 上 的 阴影 区 域 表示 在 某 些 年 份 以 某 些 名 字 命 名 的 孩子 的 
个 数 。 





这 种 特定 类 型 的 图 形 被 称 为 堆 县 时间 序 列 ， 它 是 一 种 非常 标准 的 
可 视 化 方式 ， 将 多 种 可 视 化 方法 以 相互 结合 却 又 各 目 独 立 的 方式 应 用 
于 信息 的 多 维 可 视 化 。 








[1] Facebook 是 当前 美国 最 火 的 社交 网 站 ，Twitter 是 当前 美国 最 火 的 微 
博 。 
[2] 参见 

http: //www.nytimes.com/interactive/2009/02/02/sports/20090202_superbo 
wl_twitter.html ° 





可 视 化 创建 实践 





到 目前 为 止 ， 我 们 已 经 讨论 了 通常 情况 下 信息 可 视 化 的 一 些 基 础 
知识 ， 现 在 一 起 来 完成 一 个 可 视 化 的 构建 。 我 们 将 创建 一 个 静态 可 视 
化 ， 通 常 称 为 信息 图 表 ( (ifographic)。 为 了 完成 这 个 可 视 化 实例 ， 我 
们 需要 以 下 工具 : 








-Microsoft Excel (或 者 Gdoc) 


-Adobe Photoshop (或 者 GIMP， 一 个 免费 的 图 像 处 理 程序 ) 





为 了 尽 可 能 地 重 现 该 过 程 ， 我 将 以 实际 事件 发 生 的 顺序 来 描述 这 
个 过 程 ， 而 不 是 以 之 前 的 “问题 一 数据 一 展现 ”的 方式 来 描述 


数据 任务 
在 构建 这 个 可 视 化 时 ， 我 从 数据 处 理 开始 ， 随 着 信息 逐渐 清晰 起 


来 ， 再 制定 问题 。 因 为 数据 饰 选 过 程 通 种 是 非常 随机 的 ， 我 将 简单 摘 
述 通常 情况 下 的 发 现 。 这 些 内 容 的 细节 将 在 本 世 后 面 介绍 





收集 数据 


在 本 教程 中 ， 我 决定 使 用 简单 易 用 、 可 公开 访问 的 数据 ， 因 此 主 
要 查看 的 是 由 美国 政府 收集 的 以 及 为 了 透明 化 而 直接 可 在 线 访问 的 各 
种 数据 。 通 过 “汽车 津贴 折扣 系统 ”( (Cr Allowance Rebate 
System,CARS)， 即 “ 旧 车 换 现金 计划， 我 从 该 系统 获取 到 的 汽车 交易 
和 购买 的 数据 开始 着 手 。 我 使 用 的 数据 可 以 从 两 个 Excel 表 单 文 件 
( (htp: /www.cars.gov/carsreporD 中 获取 。 该 数据 源 网 站 还 提供 CSV 或 
MDB 格 式 。 





对 数据 排序 : 发 现 版 


当 我 们 完成 可 视 化 时 ， 我 们 布 望 它 能 够 为 这 个 数据 集 的 各 个 交易 
提供 一 些 洞察 力 。 想 象 一 仆 ， 有 个 人 开 着 一 辆 破旧 的 车 ， 目 思 目 付 着 
很 快 葡 能 够 摆脱 这 辆 又 老 又 破 的 汽车 ， 换 成 一 辆 轩 新 的 汽车 。 








她 正在 开 着 一 辆 什么 样 的 车 呢 ? 她 是 否 期 望 寻找 一 辆 相似 的 但 是 
更 新 、 更 高 效 的 车 呢 CARRI) ? 或 者 她 是 否 希 望 把 汽车 换 成 一 
些 完 全 不 同 的 车 《更 像 是 "两厢 的 SUV” 这 一 类 的 车 ) ? 





我 们 要 查看 的 数据 包含 超过 65 万 的 个 人 故事 ， 每 个 故事 都 需要 动 
机 、 驱 动 、 时 间 和 付出 。 我 们 无 法 从 数据 中 梳理 出 每 个 人 的 故事 ， 但 


re BA A AY PC AT LAB Bk EAP A as PT EE 
事 。 我 们 的 目标 是 找到 一 种 方式 来 讲述 一 个 故事 ， 使 得 该 故事 对 于 用 
户 /观察 者 有 趣 而 义 狐 鲜 。 


以 下 是 我 为 了 发 现 改 事 对 数据 进行 排序 和 过 滤 的 一 些 处 理 步 又 。 





当下 载 完 数据 集 ， 我 开始 查看 回 购 的 数据 ， 试 着 通过 很 多 种 不 同 
方式 对 它们 进行 分 组 。 对 汽车 型 号 进行 分 组 刚 开始 看 起 来 很 有 意思 ， 
但 古 这 个 过 程 很 乏味， 因为 汽车 十 通过 发 动机 和 变速 右 进 行 分 组 ， 因 
此 相同 型 号 的 汽车 可 能 存在 一 些 不 同 的 登记 方式 。 

















然而 ， 在 通过 汽车 型 号 查看 汽车 的 过 程 中 ， 我 发 现 某 些 汽 车 型 号 
有 非常 高 的 回 购 量 ， 我 对 此 感到 很 震惊 。 我 开始 好 奇人 们 是 否 更 期 户 
购买 某 种 型 号 的 汽车 ， 因 此 我 开始 根据 汽车 型 号 对 车 辆 进行 分 类 。 


警告 ， 当 创建 可 视 化 时 ， 提 出 类 似 “ 人 们 是 否 更 热衷 于 回 购 某 种 型 
号 的 汽车 ? ”这 样 的 问题 是 很 危险 的 。 数 据 会 告诉 我 们 很 多 东西 ， 但 是 
数据 很 少 会 给 我 们 提供 和 人 类 动机 一 样 复杂 的 展 好 信息 。 摘 绘 数据 本 
身 是 一 回 事 ， 而 解释 数据 注 义 却 又 是 男 一 回 事 。 如 琳 因 为 福特 汽车 比 
其 他 型 号 的 汽车 有 更 高 的 回 购 量 ， 殊 在 可 视 化 中 表明 人 人 们 更 海 望 摊 脱 
福特 车 可 能 是 错误 的 。 这 种 表述 将 忽略 很 多 重要 的 变量 ， 包 括 如 市 场 
份额 、 销 售 的 汽车 类 型 、 福 特 这 一 型 号 在 汽车 销售 中 的 地 位 、 汽 车 的 























使 用 年 份 等 。 限 制 可 视 化 的 一 个 好 的 经 验 法 则 是 : 只 从 数据 本 身 碍 看 
问题 ， 允 许 用 户 或 者 观察 者 目 己 下 结论 。 


介绍 完 以 上 这 些 ， 对 可 视 化 内 在 的 问题 提出 质疑 将 是 发 现 规 律 的 
有 效 驱 动 ， 因 此 不 要 忧 于 在 早期 提出 这 些 问题 一 一 而 是 要 避免 在 最 后 
的 可 视 化 中 回答 这 些 问 题 。 








我 开始 通过 汽车 型 号 对 它们 进行 排序 ， 对 回 购 的 汽车 交易 额 进 行 
汇总 ， 我 觉得 比较 不 同型 号 (本 田 、 丰 田 、 通 用 、 福 特 和 克莱斯勒 ) 
的 回 购 量 和 新 车 购买 量 是 很 有 意思 的 。 随 着 开始 收集 这 些 数据 ， 我 们 

逐渐 发 现 汽 车 型 号 太 多 了 ， 以 致 难以 清晰 地 摘 绘 很 多 不 同 的 数据 点 。 

因此 ， 我 开始 通过 “ 母 公司 ”对 汽车 型 号 进行 分 组 ， 即 把 同一 汽车 公司 
制造 的 不 同型 号 的 汽车 放 在 一 组 中 。 举 个 例子 ， 雷 克 院 斯 是 丰田 公司 
生产 的 一 个 汽车 型 号 ， 因 此 我 把 雷 克 院 斯 型 号 和 回 购 的 丰田 型 号 的 汽 
车 统一 以 丰田 公司 作为 分 组 ， 把 这 两 个 不 同型 号 的 汽车 组 合 在 一 起 。 



































最 后 ， 我 认为 最 有 利 的 信息 描述 方式 是 把 所 有 型 号 以 生产 国家 进 
行 分 组 ， 把 同一 国家 不 同型 号 的 汽车 组 合 在 一 起 。 这 种 方式 的 好 处 是 
可 以 把 汇总 的 数据 点 的 总 数 减少 到 十 几 个 ， 并 把 信息 以 不 是 非常 明显 
的 方式 组 合 在 一 起 。 通 过 这 种 方式 ， 我 们 能 够 以 靳 新 的 方式 来 查看 数 
据 。 








对 数据 排序 : 技术 版 


既然 我 们 已 经 理 请 了 对 数据 排序 的 思路 ， 现 在 我 们 一 起 开始 文件 
的 处 理 过 程 。 


如 果 下 载 了 Excel 文 件 ， 在 打开 这 些 文件 后 ， 你 可 以 发 现 这 些 数据 
首先 是 根据 汽车 行业 进行 分 类 的 (卡车 第 一 ， 轿 车 第 二 ) ， 然 后 对 汽 
车 型 号 按 字母 序 排序 ( (Aura、Audi、BMW 等 ) 。 为 了 根据 汽车 的 生 
产 国家 对 数据 进行 排序 ， 最 简单 的 方式 是 通过 汽车 型 号 对 数据 进行 分 
类 ， 然 后 ， 我 们 将 决定 哪 一 种 型 号 汽车 和 其 “ 母 公司 ”所 在 的 国家 一 
致 。 为 了 对 Excel 表 单 中 的 数据 进行 排序 ， 只 需要 在 newvehicles 文 件 中 
选择 New_Vehicle_Make 这 一 列 ， 或 者 在 trade-in-vehicles 文 件 中 选择 








Trade in_make 列 ， 然 后 选择 “Sort& Filter -> Sort A to Z” ° 如果 Excel 文 
件 弹 出 对 话 框 ， 问 是 否 要 扩大 选择 范围 ， 则 接受 该 选项 。 








你 可 以 通过 以 下 方式 把 特定 型 号 的 汽车 的 购买 和 回 购 的 数量 汇总 
起 来 : 输入 “=SUM (”*， 然 后 使 用 鼠标 选择 Count 列 中 特定 型 号 的 所 有 
的 单元 格 。 作 为 第 一 次 笑 试 ， 把 所 有 的 Acura 这 一 型 号 的 汽车 的 购买 数 
量 加 起 来 ， 结 有 果 应 该 是 991 辆 汽车 。 把 所 有 型 号 的 汽车 购买 数量 进行 汇 
总 ， 把 结果 值 放 到 另 一 个 页 面 中 ， 这 样 可 以 帮助 你 更 方便 地 查看 数 
据 。 
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哪 一 款 汽 车 销量 最 高 ， 或 者 哪 一 年 的 回 购 量 最 大 。 即 使 是 对 于 和 当前 
的 数据 集 一 样 小 的 数据 集 ， 也 可 以 提出 几 十 个 有 意思 的 问题 。 可 能 灵 
机 一 动 ， 你 束 想 到 其 中 某 个 问题 ， 并 激发 你 创造 狐 的 、 有 吸引 力 的 可 
视 化 。 至 少 ， 这 是 去 实践 查看 数据 的 一 个 非 沼 好 的 机 遇 。 

















对 这 种 数据 进行 排序 存在 很 多 种 方式 。 可 能 写 个 脚本 或 程序 来 处 
理 该 CSV 文 件 、 并 且 把 数据 放 到 更 易于 得 看 的 汇总 文件 中 十 更 高 效 的 
(而 且 更 让 人 印象 深刻 ) 。 在 这 个 例子 中 使 用 Excel 是 为 了 帮助 不 熟悉 
编程 的 人 们 参与 数据 处 理 和 可 视 化 创建 。 








制定 问题 


到 了 现在 这 个 阶段 之 后 ， 我 们 应 该 对 自己 要 做 什么 才能 为 可 视 化 
制定 充实 的 问题 有 了 坚实 的 认识 。 我 们 的 问题 是 :“ 在 “ 旧 车 换 现 金 项 
目 中 ， 汽 车 的 购买 和 其 生产 三 家 所 在 的 国家 的 比例 分 布 是 什么 ? ” 














基于 该 问题 场景 ， 我 们 可 以 选择 构建 很 多 相关 的 信息 来 相应 地 搭 
建 可 视 化 ， 记 住 我 们 的 目标 受众 可 能 并 不 会 马上 对 该 主题 感 兴趣 。 以 
下 几 项 有 助 于 为 数据 增添 场景 信 





.该 项 目 花 费 了 2850162500 美 元 ， 提 供 677081 辆 汽车 的 采购 资金 





.对 于 购买 的 每 辆 汽车 ， 有 一 辆 是 回 购并 报废 的 。 

该 项 目 始 于 2009 年 7 月 1 日 ， 终 于 2009 年 8 月 24 日 。 

: 回 购 的 汽车 每 加 仑 油耗 的 行驶 里 程 必须 少 于 18 英 里 ( (MG) ° 
.购买 的 汽车 每 加 仑 油耗 的 行驶 里 程 必须 大 于 22 英 里 。 


为 了 可 视 化 ， 我 们 最 感 兴趣 的 是 汽车 购买 和 汽车 报废 之 间 的 关联 
关系 。 这 在 人 们 想 要 摆脱 的 各 种 汽车 以 及 他 们 想 要 购买 的 痢 的 汽车 之 
间 产 生 了 一 个 有 趣 的 平衡 现象 (也 即 某 种 程度 的 戏剧 化 ) 。 当 我 们 把 


数据 和 可 视 化 放 在 一 起 ， 我 们 需要 记 住 这 种 平衡 特征 ， 并 相应 地 调整 
可 视 化 。 





把 问题 弄 清楚 之 后 ， 我 们 已 经 有 了 坚实 的 基础 ， 我 们 可 以 通过 分 
组 和 排序 来 进一步 对 数据 进行 处 理 了 。 


对 数据 分 组 











这 个 步 又 需要 做 一 些 调研 。 为 了 按 生 产 国 家 对 不 同型 号 的 汽车 进 
行 分 组 ， 我 们 必须 查 明 哪个 汽车 型 号 对 应 哪个 公司 。 在 公司 信息 和 汽 
车 型 号 信息 这 两 个 文件 中 包含 50 多 种 汽车 型 号 ， 因 此 需要 人 花 一 些 时 间 
进行 调研 。 对 于 这 项 任务 ，Wikipedia 是 很 好 的 助手 ， 因 为 它 可 以 快速 
地 为 各 种 不 同型 号 的 汽车 提供 其 所 属 的 公司 ( 举 个 例子 ， 在 这 个 数据 
集中 ,克莱斯勒 汽车 公司 拥有 6 种 汽车 型 号 ， 以 及 这 些 型 号 的 汽车 的 总 
部 所 在 的 国家 。 





为 了 节省 您 的 时 间 ， 我 提供 了 一 个 包含 这 些 数据 信息 的 有 用 的 表 
( 见 表 2-1) 。 





表 2-1: 通过 型 号 、 所 属 公司 和 所 在 的 国家 进行 分 组 的 汽车 
型 号 所 属 公司 国家 型 号 所 属 公司 国家 


= 
Jaguar South Korea 
, 


MINI 


Benz motor 


E 


S: 





E EE S 


S 
S 
5S. 
S 
.S 


Nissan Cadillac U.S. 


Honda Honda 


然而 ， 需 要 记 住 的 是 ， 这 种 通过 型 号 对 汽车 进行 分 组 的 方式 对 数 
据 提 出 了 一 些 问 题 ， 我 们 在 继续 下 一 步 探 讨 之 前 需要 回答 这 些 问 题 。 
举 个 例子 ，Jaguar 机 是 一 个 典型 的 总 部 设 在 英国 的 英国 公司 ， 但 它 却 为 
印度 公司 Tata 汽 车 公司 所 有 。 那 么 ， 我 们 应 该 把 Jaguar 划 分 为 英国 汽车 
还 是 印度 汽车 呢 ? 





处 理 这 类 问题 的 “正确 ”的 方法 主要 是 由 个 人 喜好 决定 。 重 要 的 走 
在 可 视 化 展现 中 ， 对 此 类 问题 的 决定 应 该 保持 一 致 性 ， 并 且 辐 读者 传 
达 这 样 的 信息 : 你 以 某 种 方式 做 出 了 决定 。 通 前 情况 下 ， 在 可 视 化 中 
给 一 个 脚注 进行 说 明 就 足够 了 。 





[1] Jaguar 即 捷豹， 是 一 款 很 名 贯 的 汽车 。 


应 用 可 视 化 展现 方式 





在 这 个 阶段 ， 我 们 应 该 以 目 己 期 望 的 方式 获取 所 有 数据 ， 回 购 或 
新 购买 的 汽车 ， 通 过 国家 进行 分 组 。 现 在 应 该 开始 选择 数据 的 可 视 化 
展现 方式 。 








在 该 可 视 化 中 ， 我 们 将 展现 两 个 维度 的 信息 。 第 一 个 维度 是 按照 
国家 进行 分 组 的 汽车 的 数量 ， 第 二 维 是 购买 和 回 购 的 汽车 之 间 的 区 
别 。 购 买 的 汽车 和 “以 旧 换 新 ”的 汽车 之 间 是 “独一无二 ”的 ， 因 此 在 信 
息 上 不 存在 任何 交 丰 ， 这 将 简化 展现 方式 。 为 了 区 分 购买 的 和 回 购 的 
汽车 ， 我 们 可 以 使 用 一 种 简单 的 方法 来 表示 : 用 红色 表示 “ 回 购 ”、 绿 
色 表 示 “ 购 买 ”。 





由 于 我 们 要 处 理 的 数据 包含 的 数据 点 很 少 ， 但 是 其 变化 却 很 多 ， 
通过 尺寸 来 表示 这 种 信息 是 最 有 意义 的 。 这 种 展现 方式 将 以 直观 、 有 
力 的 方式 引起 人 们 对 这 种 变化 范围 的 关注 。 最 简单 的 实现 方式 将 是 使 
用 不 同 大 小 的 圆圈 或 者 条 形 图 来 表示 回 购 和 购买 汽车 的 数量 。 




















天 于 面积 和 圆圈 的 注意 点 


如 果 我 们 使 用 圆圈 来 表示 数据 ， 必 须 记 住 的 是 我 们 将 需要 改变 加 
图 面积 ， 而 不 是 该 圆圈 的 半径 或 直径 。 如 果 我 们 选择 了 购买 的 美国 汽 








车 的 数量 (575073) ， 并 且 半 径 用 50 个 像素 来 表示 ， 我 们 将 使 用 以 下 
Excel 公 式 来 计算 其 他 每 个 圆圈 的 大 小 : 





SQRT (( (U_Baseline_Radius\2*Target_Vehicles)/US_Vehicles) 


我 指出 这 一 点 是 因为 这 种 计算 方式 可 能 是 在 一 般 情 况 下 ， 用 圆圈 
或 者 面积 对 信息 进行 可 视 化 时 最 常 犯 的 错误 之 一 ; 正确 的 关系 如 图 2- 
10 所 示 。 通 过 线性 增 大 半径 或 直径 的 长 度 来 增 大 圆圈 时 ， 圆 圈 面 积 的 
增加 或 减少 将 是 呈 指 数 级 变化 的 ， 如 图 2-11 所 示 。 





至 此 ， 我 们 讲 清楚 了 以 上 几 个 问题 ， 但 是 实际 上 我 们 不 会 使 用 圆 
轿 。 不 要 看 急 ， 我 这 么 做 是 有 充足 理由 的 。 


美国 
回 购 的 汽车 





975,073 


2-10: 正确 的 方式 ( 增 大 面积 ) 


美国 日 本 
回 购 的 汽车 回 购 的 汽车 


$1,466 





575,073 


Al 2-11: 错误 的 方式 ARF) 


通过 国家 地 图 展现 数据 





既然 我 们 的 信息 可 视 化 是 以 国家 为 中 心 ， 我 们 将 使 用 各 个 国家 的 
形状 地 图 来 展示 可 视 化 ， 并 相应 地 调整 这 些 地 图 。 这 种 展现 方式 可 以 
给 我 们 的 可 视 化 增加 一 些 有 价值 的 附加 信息 。 首 先 ， 使 用 国家 地 图 将 
使 该 可 视 化 项 目 为 读者 市 来 祝 觉 上 的 亲 黎 感 。 如 有 果 读 者 的 祖国 在 列表 
上 ， 他 就 可 以 蕊 上 找到 他 的 和 祖国， 并且 会 倾注 其 注意 力 。 同 样 地 ， 我 
们 可 以 拉 近 读者 和 其 祖国 或 者 他 们 所 熟悉 的 任何 其 他 国家 间 的 情感 。 
这 样 的 情感 拉 近 使 得 读者 更 有 可 能 记 住 或 者 推荐 该 可 视 化 产品 。 














其 次 ， 使 用 国家 形状 地 图 而 不 征 圆 圈 使 得 该 可 视 化 可 以 通过 很 多 
不 同 的 尺寸 大 小 来 传递 信息 。 有 即使 可 视 化 中 只 有 拇指 般 大 小 的 图 形 ， 
还 是 可 以 轻易 识别 出 国家 形状 ， 使 得 用 户 可 以 知道 该 可 视 化 是 和 不 同 
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再 次 ， 如 琳 我 们 只 使 用 圆圈 或 者 条 形 图 ， 我 们 将 需要 依赖 文本 来 
表达 可 视 化 中 的 国家 的 名 字 。 这 一 点 不 一 定 是 坏事 ， 但 是 会 增加 读 着 
对 可 祝 化 的 理解 所 需要 的 时 间 ， 因 为 读者 需要 阅读 文本 才能 理解 可 视 
化 。 这 种 方式 将 可 能 削弱 可 视 化 市 来 的 直接 影响 效果 。 














最 后 ， 读 者 习惯 在 世界 地 图 中 看 到 的 这 些 不 同 的 国家 ， 它 们 的 相 
对 大 小 比例 总 是 相同 。 如 采 在 可 视 化 中 不 考虑 读者 所 熟悉 的 这 些 形 
状 ， 而 展现 为 韩国 比 德国 大 或 者 美国 比 日 本 小 ， 该 可 视 化 将 会 和 读者 
的 预期 差别 很 大 。 它 会 被 读者 认为 “扭曲 ”了 真实 的 事实 。 





确定 了 应 该 使 用 国家 形状 而 不 是 圆圈 的 方式 来 展现 可 视 化 之 后 ， 
我 们 需要 在 列表 中 找到 国家 的 可 视 化 展现 。 最 可 靠 的 方式 是 搜索 
以 “.svg” 为 后 级 的 文件 中 的 国家 名 字 。SVG 表 示 可 缩放 矢量 图 形 
( (Salable Vector Graphics)， 是 由 W3C 协 会 倡议 的 开放 标准 的 矢量 图 形 
趾 。 它 是 一 种 流行 的 矢量 图 像 标准 ， 尤 其 适用 于 免费 的 图 像 和 地 图 ， 
很 多 矢量 控制 应 用 程序 都 支持 它 。 








维基 共享 资源 ( (htp: //commons.wikimedia.org) 包 含 很 多 免费 、 高 
质量 的 矢量 地 图 。 这 些 地 图 易于 扩展 ， 而 且 非 常 适用 于 这 种 项 目 。 有 
些 难以 发 现 的 国家 也 可 以 从 维基 共 至 资源 的 世界 矢量 地 图 中 抽取 出 








来 。 这 些 文 件 可 以 通过 图 形 设计 软件 Adobe Ilustrator 或 者 天 量 图 形 编 
辑 软件 Inkscape(http: //www.inkscape.org) 进 行 编辑 生成 矢量 文件 译 3 
， 或 者 作为 GIMP 的 比特 图 。 对 于 Ilustrator， 其 矢量 对 象 可 以 在 
Photoshop 中 直接 拷贝 和 粘贴 。 


为 了 商 化 ， 我 们 将 只 显示 回 购 或 购买 的 汽车 的 数量 超过 1000 辆 的 
国家 。 这 意味 着 我 们 的 可 视 化 需要 美国 、 日 本 、 加 拿 大 、 和 人 德国 、 珊 典 
和 英国 的 地 图 。 





一 旦 我 们 有 了 这 些 国 家 的 图 像 ， 我 们 就 为 可 视 化 的 最 后 一 步 〈 即 
调整 图 像 大 小 ) 做 好 了 准备 。 


[1] 可 访问 其 主页 获取 更 多 信息 ，http: /www.w3.org/Graphics/SVG/ ° 
[2] Adobe llustrator 是 Adobe 公 司 推出 的 图 形 设 计 软 件 ， 可 以 通过 公司 
的 网 站 产品 介绍 http: /www.adobe.com/cn/products/illustrator/ 了 解 更 

多 ; Inkscape 是 一 球 开 源 的 矢量 图 形 编 辑 软 件 ， 使 用 W3C 标 准 的 SVG 
文件 格式 。 

[3] GIMP:GNU 图 像 处 理 程序 ( (GU Image Manipulation Program)， 是 
一 款 位 图 图 形 编辑 软件 。 可 以 访问 其 网 站 http: //www.gimp.org/ 了解 更 


Z o 


构建 可 视 化 


在 将 图 像 加 载 到 图 像 处 理 程 序 之 后 ， 我 们 需要 调整 它们 的 大 小 ， 
以 便 能 够 合理 地 表示 回 购 和 购买 的 汽车 的 比例 。 


处 理 该 问题 的 方法 是 采纳 最 大 的 数据 块 (在 这 种 情况 下 ， 即 美国 
制造 的 汽车 的 回 购 数量 : 57507344) ， 然 后 把 它 的 大 小 调整 到 适合 
一 个 信息 图 形 的 画布 大 小 。 这 种 销 形 状 ( (achor shape) 是 非常 实用 的 ， 
可 以 确保 没有 一 种 图 形 元 素 会 因为 尺寸 太 大 而 影响 可 视 化 显示 上 给 
的 优雅 的 感觉 。 把 这 种 数据 作为 锁 ， 我 们 可 以 对 所 有 其 他 数据 元 素 相 
应 地 调整 大 小 。 














一 旦 确定 了 销 形 状 的 大 小 ， 我 们 需要 计算 其 中 包含 多 少 像素 。 
Photoshop 和 GIMP 软 件 处 理 图 像 时 存在 技巧 ， 使 我 们 可 以 很 容易 地 计 
算 在 特定 层 选 定 的 像素 的 个 数 。 这 两 款 软 件 都 有 一 个 菜单 窗口 名 为 “ 直 
方 图 ”( (Hstogram)， 它 显示 了 当前 选 定 的 像素 的 个 数 。 使 用 该 工具 ， 
我 们 可 以 确定 锚 的 像素 个 数 ， 通 过 以 下 公式 ， 可 以 计算 其 他 形状 需要 


包含 多 少 像素 : 








Target_Size=Target_Number*Anchor_Size/Anchor_Number 





举 个 例子 ， 日 本 汽车 的 回 购 数量 是 81466 辆 。 如 果 我 们 调整 美国 地 
图 大 小 为 25000 个 像素 ， 那 么 计算 日 本 地 图 大 小 的 等 式 如 下 : 


Japan_Size=81466*25000/575073=3542 像 素 通常 使 用 Excel 来 计 
算 ， 因 为 这 样 可 以 很 容易 地 保存 、 检 查 和 复制 。 





利用 直方 图 的 技巧 ， 我 们 可 以 对 目标 国家 的 不 规则 图 形 重新 调整 
大 小 ， 直 到 它们 包含 适合 相应 数据 点 可 视 化 的 像素 数量 。 


为 了 适应 于 展现 可 视 化 的 媒体 (对 本 书 而 言 是 一 个 页 面 ， 我 决 
定 通过 一 条 垂直 轴 对 这 些 国家 进行 排列 。 这 种 方法 为 色彩 元 素 增 添 了 
对 称 性 ， 增 强 了 数据 中 的 绿色 /红色 、 新 买 的 /以 昌 换 新 的 二 分 区 别 。 





现在 ， 我 们 已 经 完成 了 可 视 化 需要 的 核心 工作 。 在 介绍 性 宣传 单 
上 提供 一 些 背 景 信息 ， 增 加 关于 Jaguar 和 Land Rovers 的 起 源 国家 的 标 
注 5， 得 到 如 图 2-12 所 示 的 结果 。 











该 可 视 化 满足 了 我 们 的 标准 。 在 它 的 最 上 方 给 出 了 故事 的 介绍 信 
思 ， 以 鲜明 的 布局 展示 方式 吸引 了 读者 的 注意 力 ， 而 且 可 以 立即 被 理 
解 。 我 们 通过 颜色 编码 表示 “购买 的 /回收 的 ?汽车 之 间 的 二 分 区 别 ， 通 
过 物理 上 的 对 称 性 增强 了 该 展现 效果 〈 如 采 我 们 硕 望 那些 色 育 人 员 也 
能 够 理解 该 信息 图 ， 对 称 性 是 很 重要 的 ) 。 该 可 视 化 说 明了 我 们 期 望 
给 读者 一 个 真正 油 动 人 心 的 故事 。 





[5] Jaguar 和 Land Rovers 这 两 笋 汽车 都 是 属于 Tata 公 司 的 ， 该 公司 总 部 
在 英国 ， 但 是 属于 印度 的 公司 。 


结束 语 


该 教程 谈 到 的 只 是 创建 有 效 可 视 化 的 技巧 的 一 小 部 分 。 如 果 在 以 
下 领域 具备 更 深层 次 的 基础 ， 如 色彩 理论 、 印 刷 术 、 计 算数 据 挖 气 和 
编程 ， 以 及 关于 数据 主题 的 一 些 背景 知识 ， 那 么 在 创建 吸引 人 人心 的 可 
视 化 中 都 将 提供 很 有 价值 的 帮助 。 





虽然 不 同 领 域 都 为 可 视 化 创建 过 程 提供 了 一 些 不 同 的 信息 ， 但 它 
们 都 属于 一 个 统一 的 整体 ， 因 为 每 个 可 视 化 都 是 某 个 故事 的 一 部 分 。 
即使 显示 一 个 公司 的 僵 利 数据 的 最 简单 的 条 形 图 也 是 从 一 个 更 大 范围 
(可 能 是 管理 风格 上 的 变化 ) 、 更 令 人 难 起 、 更 有 价值 的 信息 中 获取 
到 的 。 正 是 这 些 不 同 的 场景 以 及 和 它们 相关 的 故事 ， 赋 了 予 了 可 视 化 长 
期 持久 的 影响 和 力量 。 





WINNERS & CLUNKERS 


Between July 1 and August 24, 2009, the federal goverment provided 677,081 
rebates to individuals who traded in an older, inefficient vehicle for a new fuel 
efficient one. 


This is a visual of the countries from which vehicles were “clunked” and the 
countires that built the cars for which they were traded. 
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* Land Rover and laguar are owned by Indian 
comapry Tata Motors, but maintain their 
headquarters in England 


图 2-12: 最 终生 成 的 可 视 化 ( 见 彩 图 11) 


第 3 草 Wordle Jonathan Feinberg 





图 3-1: 本 章 的 一 个 Wordle 图 例 ( 见 彩 图 12) 


到 目前 为 止 ， 即 使 是 从 未 听 过 “信息 可 视 化 ”的 人 对 于 绚丽 多 彩 的 
单词 拼 贴 “Wordle” 叫 也 都 很 熟悉 ，Wordle 被 认为 是 “文本 分 析 人 处 理 的 ‘入 
门 仙 丹 '”( (te gateway drug to&nbsp; textual analysis) |?! 。 正 如 很 多 这 
样 的 “ 仙 丹 ”一 样 ， 虽 然 Wordle 起 源 于 像 del.icio.us 和 Flickr 这 样 的 站 点 对 
这 种 功能 实用 的 标签 云 的 推广 ， 但 它 的 诞生 却 仅仅 是 出 于 好 玩 。 


Wordle 的 起 产 


在 2004 年 ， 我 的 同事 Bernard Ker 和 我 一 起 制作 了 一 个 社会 标签 应 
用 ，Bernard 把 它 命 名 为 “dogear” 31( (Mllen 、Feinberg 和 Kerr, 
2006) 。 任 何 一 个 应 用 ， 只 要 人 允许 用 户 对 内 容 添加 标签 ， 就 必定 会 提 
供 一 个 “标签 云 "( (tg cdloud)， 它 是 由 可 点 击 的 关键 字 组 成 的 一 个 模糊 的 
和 矩形 集合 。 因 此 ， 当 我 们 设计 dogear 应 用 时 ， 我 们 确定 对 每 个 页 面 都 添 
加 了 醒目 的 “标签 云 " 标 识 〈 见 图 3-2) 。 





All of Jonathan's Tags 


















ajax blog css design 
dogear dom eclipse firefox 
fun funny hacks http ibm it 
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os programming search 
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Al 3-2: 在 dogear 应 用 中 显示 的 作者 的 标签 








我 之 前 从 未 发 现 过 标签 云 在 可 视 化 上 有 什么 特别 有 趣 或 者 让 人 人质 
心 悦 目 之 处 。 没 有 足够 的 证 据 表 明 标 签 云 对 于 导航 或 者 其 他 交互 任务 
会 确实 很 有 用 四。 但 是 ， 当 Matt Jones 5 在 他 的 博客 上 把 del.icio.us 网 
站 的 标签 以 美丽 、 排 版 上 生动 活泼 的 图 像 发 布 出 来 时 ， 我 感到 非常 激 
动 。 我 认为 一 个 计算 机 程序 一 定 会 创造 出 类 似 的 效果 。 至 少 ， 我 希望 
最 后 可 以 是 通过 某 种 方式 一 一 类 似 Jones 的 云 标 侈 一 一 把 点 “i” 放 到 
点 “的 下 方 ， 这 一 点 超出 了 标签 云 当时 力所能及 的 范围 。 
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Al 3-3: Matt Jones 做 的 排版 上 可 识别 的 标签 云 





我 花 了 一 周 左右 的 时 间 编 写 代码 ， 实 现 了 所 谓 的 “标签 浏览 
器 ”( 见 图 3-4) ， 它 是 一 个 Java 应 用 小 程序 。 这 个 小 程序 使 得 用 户 可 以 
过 dogear 应 用 ， 点 击 和 当前 内 容 相 关 的 标签 来 浏 
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图 3-4: Dogear 标 签 浏览 器 上 | 





显而易见 ， 标 签 浏览 器 用 于 描绘 一 个 人 的 兴趣 爱好 是 很 有 用 的 。 
我 在 IBM 的 很 多 同事 使 用 标签 浏览 器 的 屏幕 截图 来 显示 他 们 的 简历 和 
电子 邮件 签名 ( 见 图 3-5) ° 
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Al 3-5: 作者 2006 年 的 工作 电子 邮件 签名 


当 dogear 成 为 BM 的 产品 !， 标 签 浏览 器 和 dogear 应 用 脱离 开 来 ， 
我 束 完 全 息 记 了 它 。 几 年 以 后 ， 我 偶然 看 到 了 标签 浏 贤 絮 的 代码 ， 发 


现 它 还 是 值得 进一步 开发 的 。 


原始 的 标签 浏览 器 和 dogear 应 用 结合 很 紧密 ， 而 且 总 体 上 遵从 “ 标 
签 云 " 的 思想 。 我 希望 能 够 找到 一 种 方式 ， 把 “单词 云 ” 特 效 从 “标签 ”的 
整体 思想 中 分 离 出 来 ， 因 为 单词 云 具 有 的 令 人 愉快 且 有 趣 的 特性 是 大 
众 化 的 ， 而 只 有 了 解 复杂 技术 的 人 们 才 对 标签 熟悉 。 因 此 ， 我 产生 了 
对 单词 进行 计数 的 简单 想法 。 一 旦 决定 了 构建 一 个 系统 来 查看 文本 而 
不 是 标签 ， 对 单词 执行 其 他 任何 处 理 而 不 仅仅 只 是 在 页 面 上 展现 看 起 
来 都 是 多 余 的 。 我 决定 还 是 以 快乐 作为 设计 的 目标 ， 秉 承 Charles 
Eames 的 讲话 精神 : “ 谁 会 认为 快乐 是 不 重要 的 ? ” 反 过 来 ， 这 个 决定 使 
得 最 后 确定 应 该 保留 哪些 特征 、 人 铭 弃 哪些 特征 以 及 如 何 设计 交互 界面 
变 得 简单 容易 ( 见 图 3-6) 。 








粘贴 一 串 文本 : 


图 3-6: Wordle 的 文本 分 析 用 户 界 面 


因为 Wordle (EMA ERM AE) 的 目的 是 为 了 使 人 愉快 ， 
我 需要 考虑 字体 和 调 色 板 的 表现 力 〈 见 图 3-7) 。 
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图 3-7: Wordle 提 供 了 各 种 不 同 的 调 色 板 、 字 体 和 布局 ( 见 彩 图 13) 


“vom Computer 








我 相信 自己 为 了 简化 Wordle 以 及 强调 商业 乐趣 上 所 付 诸 的 努力 ， 
已 经 达到 了 事半功倍 的 效果 。 人 们 对 Wordle 的 使 用 方式 是 我 从 未 预料 
到 的 ， 其 使 用 人 数 也 远 远 超出 了 我 的 期 望 。Wordle 的 成 功 一 部 分 归功 
于 Web 应 用 设计 本 号， 由 于 它 的 “一 次 粘贴 /一 次 点 击 ” 给 人 人们 这 来 的 瞬 
间 的 满足 感 。 虽 然 Wordle 可 视 化 设计 本 身 为 其 普遍 性 带 来 积极 影响 ， 
可 是 在 我 们 详细 探讨 什么 是 Wordle 以 及 它 是 如 何 工作 之 前 ， 有 必要 分 
析 一 下 什么 不 是 Wordle 。 








解剖 标签 云 


典型 的 标签 云 应 用 是 以 “ 拘 入 型 * 的 环绕 方式 组 织 的 中。 如 果 某 行 
的 字体 大 小 比 其 他 行 大 ， 了 字体 小 的 周围 的 空白 处 将 更 大 ， 这 看 起 来 会 
很 不 协调 。 例 如 图 3-8，“everett hey” 的 上 方 有 很 大 的 空 日 ， 因 为 该 行 的 
字体 大 小 是 由 其 相 邻 词 “everett everett” 决 定 的 。 
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Al 3-8: “迷失 "在 空白 中 国 ( 见 彩 图 14) 








减轻 这 种 由 于 强烈 的 对 比 造 成 空白 参差 不 齐 的 一 种 方式 是 把 不 同 
字体 大 小 的 单词 放 入 几 个 不 同 的 区 块 中 ， 如 del.icio.us 所 做 的 那样 。 在 
图 3-9 中 ,，“programming” 这 个 标签 被 用 了 55 次 ， 而 “scripting” 只 被 用 了 1 
次 ， 但 是 使 用 更 频繁 的 字体 大 小 仅 大 出 50%。 还 应 该 注意 使 用 字体 权重 

(粗细 ) 来 增强 不 同 权重 的 字体 之 间 的 对 比 度 。 
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图 3-9: 借助 字体 权重 来 增加 区 分 度 





实际 上 ，delicio.us 站 点 主要 是 通过 计算 对 数 的 方式 来 缩放 单词 的 
权重 。 当 源 数 据 遵从 几率 分 布 时 ， 使 用 对 数 或 者 平方 根 的 方式 对 字体 
权重 进行 缩放 是 合理 的 ， 如 标签 那样 1 中。 在 Wordle 的 真实 、 有 用 的 设 
计 和 充满 幻想 的 世界 中 ， 存 在 一 些 其 他 更 具有 实验 研究 性 的 接口 。 比 








如 WP-Cumulus |"! 的 博客 插件 ， 提 供 了 旋转 的 、 三 维 的 标签 画面 ( 见 
图 3-10) 。 
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图 3-10: WP-Cumulus: 几乎 无 法 点 击 的 “标签 云 ” 












把 可 视 化 和 导航 结合 起 来 在 设计 “单词 云 " 上 提出 了 一 些 约 束 。 但 
征 一 旦 我 们 能 够 从 “实用 性 ”中 解放 出 来 一 一 一 旦 我 们 不 再 需要 提供 导 
航 功能 一 一 我 们 束 可 以 拥有 更 大 的 发 挥 空间 。 





填充 二 维 空间 


有 很 多 计算 机 科学 博士 因为 逐步 改进 所 谓 的 “ 准 箱 问题 ( (bn- 
packing problems)” 0> 而 被 授予 博士 学 位 。 圣 运 的 是 ， 一 种 简单 的 方法 
有 一 个 很 不 错 的 名 字 : 随机 贫 禁 算法 。 该 算法 是 随机 的 
( (rdomized)， 你 可 以 随意 把 单词 拖 放 到 屏幕 中 某 个 期 望 的 位 置 附 
近 ， 而 如 有 果 该 词 和 其 他 词 存在 区 琶 ， 束 重新 再 试 一 次 ， 直 到 它 不 和 任 








fA TRIACS LE ° IRERE RE, (geedy)” 之 处 在 于 字体 大 
的 单词 更 容易 被 选中 。 


Wordle 的 特定 字符 依赖 于 一 些 限制 条 件 。 首 先 ， 给 定 一 组 包含 天 
联 (有 意义 的 ) 权重 的 单词 列表 。 我 们 不 能 多 次 显示 一 个 单词 ， 而 且 
不 布 户 显示 超出 了 单词 的 字体 大 小 而 扭曲 了 单词 的 形状 。 不 过 ， 如 来 
我 们 取消 这 些 约束 条 件 ， 可 能 会 产生 很 多 其 他 美丽 有 趣 的 效果 。 














例如 ， 你 可 以 使 用 贪 攀 算 法 来 填充 几乎 任何 一 个 区 域 (不 只 是 一 
MEE) ， 只 要 你 有 一 组 单词 作为 “ 调 色 板 ”， 从 该 调 色 板 中 你 可 以 任 
意 次 数 地 选择 任意 字体 的 任意 单词 ( 见 图 3-11) ° 
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Al 3-12: Jared Tarbell 的 “情感 分 形 ” 


如 果 你 不 介意 按照 需要 拉 长 或 者 压缩 字体 ， 还 可 以 产生 其 他 的 效 
果 。 例 如 ， 图 3-13 显 示 了 典雅 的 “ 树 形 图 *( (teemap) 1 的 变 体 ， 它 使 
用 文本 ， 而 不 是 矩形 来 填充 空间 。 每 个 单词 填充 的 区 域 与 其 出 现 的 频 
率 成 一 定 比例 ， 每 个 矩形 区 域 包含 了 在 原文 文本 中 相互 强 关联 的 音 
词 。 
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图 3-13: 奥巴马 演讲 的 单词 树 形 图 ( 见 彩 图 16) 
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必须 指出 的 是 ， 早 在 Processing 图 形 处 理 软件 ( (Pocessing sketches) 
(13] 和 Flash 应 用 小 程序 产生 之 前 ， 人 们 就 开始 探索 在 大 众 媒体 和 艺术 作 
品 上 的 排版 创作 〈 见 图 3-14) ; 我 们 长 时 间 一 直 在 探索 文字 的 格式 和 字 
体 之 间 的 分 界 〈 见 图 3-15) 。 探 索 这 些 算法 的 目标 是 使 这 些 例子 中 所 瑟 
涵 的 智慧 和 优雅 能 够 给 文本 数据 的 展现 带 来 良好 的 效果 。 


鉴于 以 上 关于 Wordle 所 涉及 的 技术 和 艺术 背景 的 简短 介绍 ， 我 们 
现在 可 以 更 详尽 深入 地 查看 Wordle 中 强 涵 的 技术 和 美学 。 


| 
| 


i = | 
Bio 


iba 
vi 
| 1 


; | | 由 


“lt 





图 3-14: Herb Lubalin 和 Lou Dorfsman 和 的 印刷 排版 组 合 (由 设计 人 研究 


中 心 提供 ， 见 彩 图 17) 
[1] Wordle 是 一 种 工具 ， 能 够 根据 提供 的 文本 ， 生 成 单词 拼 贴图 形 BE 
单词 云 ，word cloud) ° 
[2] 参考 http: //www.profhacker.com/2009/10/21/wordles-or-the-gateway- 
drug-to-textual-analysis/ ° 
[3] dogear 是 “书页 折 角 ”的 意思 。 它 是 IBM 的 一 个 协作 式 用 户 体 验 项 
目 ， 可 以 访问 
http: //domino.watson.ibm.com/cambridge/research.nsf/0/1c181ee5fbcf59f 
b852570fc0052ad75 了 解 更 多 。 
[4] 参考 http: //doi.acm.org/10.1145/1240624.1240775 ° 
[5] 参考 http: //magicalnihilism.com/2004/07/04/my-delicious-tags-july- 
2004/ ° 


[6]: 参考 http: //www.flickr.com/photos/koranteng/526642309/in/set- 
72157600300569893 ° 

[7]: 参考 http: /www- 
01.ibm.com/software/lotus/products/connections/bookmarks.html ° 

[8] 如 果 你 想 深 入 研究 标签 云 设 计 ， 请 查看 该 网 址 

http: //www.smashingmagazine.com/2007/11/07/tag-clouds-gallery- 
examples-and-good-practices/， 它 包含 非常 有 见地 的 评论 。 

[9] 参见 

http: //manyeyes.alphaworks.ibm.com/manyeyes/page/Tag_Cloud.html ° 
[10] 参考 http: //www.citeulike.org/user/andreacapocci/article/1326856 ° 
[11] 参考 http: //wordpress.org/extend/plugins/wp-cumulus/ ° 

[12] 参考 http: //en.wikipedia.org/wiki/Bin_packing problem ° 

[13]: 参考 http: //evitated.net/daily/levEmotionFractal.html ° 

[14]: 参考 http: //www.cs.umd.edu/hcil/treemap-history/ ° 

[15] Processing 是 一 款 优秀 的 开源 编程 语言 ， 人 们 可 以 用 它 创建 二 维 、 
三 维 的 图 形 、 动 画 和 一 些 交 互 应 用 等 。 你 可 以 访问 其 主页 

http: /processing.org/ 来 了 解 更 多 。 





Wordle 如 何 工 作 


Wordle 是 通过 Java 应 用 小 程序 实现 的 ， 因 此 这 里 提供 的 一 些 技 术 细 
节 是 以 Java 特 有 的 一 些 语言 特性 描述 的 。 这 里 所 描述 的 都 可 以 通过 其 他 
语言 、 使 用 其 他 库 或 者 框 以 来 实现 ， 不 过 Java 对 Unicode 文 本 处 理 和 二 
维 图 形 (通过 Java2D APIT) 的 文 持 ， 使 得 用 Java 实 现 Wordle 变 得 简单 容 
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A 3-15， 在 使 用 文字 来 绘图 前 ， 我 们 已 经 使 用 图 画 来 写字 了 


+ =] 


文本 分 析 


我 们 先 回 顾 一 下 决定 Wordle 了 字符 的 一 些 基 本 前 提 。 特 别 地 ， 只 要 
考虑 到 Wordle， 我 们 需要 首先 确定 “文本 ?到 展 是 什么 。 








虽然 这 种 文本 分 析 方 式 与 一 些 日 然 语言 处 理 方式 相 比 还 很 粗粮 ， 
但 写 其 实现 起 来 却 也 相当 索 琐 。 如 采 你 准备 用 Java 语 言 实现 这 种 分 析 方 
式 ， 我 所 开发 的 库 cue.language |'! 会 很 有 帮助 。 它 很 小 很 快 ， 并 且 作 为 
Wordle 的 一 部 分 ， 每 天 有 数 千 人 在 使 用 它 。 请 记 住 ， 在 目 然 语言 分 析 
中 美学 和 科学 并 重 扩 ， 即 使 是 当前 最 先进 的 计算 工具 ， 其 中 也 需要 用 
到 判断 和 审美 。 








查找 单词 


Wordle 使 用 单词 进行 绘图 ， 每 个 单词 有 一 定 权 值 ， 单 词 的 大 小 由 
这 些 权 值 决 定 。 Wordle 如 何 判 定 一 个 “单词 ”>? Wordle 构 建 了 一 个 正则 表 
达 式 ， 它 能 够 识别 很 多 不 同 子 体 类 型 的 单词 ， 然 后 通过 带 归 方式 ， 把 
该 正则 表达 式 应 用 于 给 定 的 文本 ， 生 成 一 组 结果 单词 列表 ， 如 例 3-1 所 
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例 3-1， 如 何 识别 “单词 * 


private static final String LETTER="[@+\\p{javaLetter}\\p{javaDigit}]"; 

private static final String JOINER="[-.: /"\\p{M}\\u2032\\u00A0\\u200C\\u200D ~]"; 
/* 

A word is: 

one or more" letters" followed by 

zero or more sections of 

one or more"joiners"followed by one or more" letters" 

/* 


private static final Pattern WORD= 
Pattern.compile(LETTER+"+ ("+JOINER+"+"+LETTER+"+) *") ; 


Worde, F æJavah Character K PREM BALA FEM — S 
ToBI “PERS ANS” o SA'S E A A 
JLAM: Unicode MR, Etui TARA IE MAAR GPA; URL 
中 经 党 出 现 的 其 他 标点 符号 (因为 Wordle 的 用 户 期 望 把 URL 也 作为 字 
符 串 ) ; 省 略 号 以 及 一 些 其 他 非 正 式 地 表示 省 略 号 的 字符 (如 单 引 号 
字符 () ，U+2032) 。Wordle 文 持 把 波浪 符 (~) 作为 单词 连接 符 ， 
但 是 在 输出 时 把 波 滔 符 蔡 换 成 一 个 空格 ， 因 此 用 户 可 以 非常 容易 地 “把 
这 些 单词 连接 在 一 起 "， 而 不 需要 知道 真正 地 把 各 个 字符 连接 在 一 起 
的 “魔术 连接 符 ”。 








确定 字体 类 型 


抽取 了 一 组 单词 之 后 〈 不 论 这 里 < 单词 ”的 涵义 是 什么 ) ， 我 们 需 
要 知道 如 何 把 这 些 单词 展现 给 观众 。 我 们 首先 要 知道 需要 展示 的 字符 
有 哪些 ， 从 而 可 以 选 定 一 种 字体 ， 能 够 文 持 这 些 字符 。 





Wordle 的 字体 集 是 按照 每 种 字体 可 以 文 持 的 字体 类 型 ( (sript) 的 方 
式 来 组 织 的 ， 一 种 字体 类 型 (语系) 即 你 所 能 想到 的 一 个 字母 : 一 个 
符号 (FH) 集合 ， 可 以 以 一 种 或 多 种 语言 来 可 视 化 表示 字符 序列 。 


) 
一 个 给 定 的 字体 类 型 ， 在 Unicode 中 是 组 织 成 一 个 或 多 个 分 块 。 因 此 ， 














Wordle 的 任务 是 通过 给 定 文本 中 所 表现 的 分 块 ， 确 定 用 户 可 能 想 要 使 
用 哪 一 种 字体 。 


Java 提 供 了 静态 方法 UnicodeBlock.of(int codePoint) 来 确定 给 定 的 代 
码 点 属于 哪个 分 块 。Wordle 获 取 文 本 中 最 闻 见 的 单词 ， 并 检查 每 个 单 
词 中 的 自 子 符 。 在 管见 情况 下 ， 甫 字符 十 属 于 Latin 分 块 ， 我 们 进一步 
查看 该 单词 的 其 他 字符 ， 看 是 否 包含 任何 Latin-1 编 码 符 (我 们 认为 这 
种 方式 可 以 排除 某 些 字体 类 型 ) 或 者 任何 Latin 扩 展 分 块 (这 种 方式 可 
以 排除 更 多 的 字体 类 型 ) 。 最 后 ，Wordle 会 选中 最 常见 的 分 块 作为 最 
RITR 

















为 了 保证 响应 速度 和 限制 网 络 资源 的 使 用 ，Wordle 在 设计 上 一 次 
只 允许 使 用 一 种 字体 。 竺 征 功 能 更 全 的 单词 云 可 能 会 为 不 同 的 单词 选 
择 不 同 的 字体 ;这 种 方式 可 以 为 展现 提供 另 一 种 视觉 维度 ， 如 不 同 的 
源 文 本 。 





在 撰写 本 章 时 ，Wordle 已 经 文 持 拉 丁 语 ( 〈Ltin)、 西 里 尔 文 
( (Crillic) ` X \DvanagarD)、 和 希 伯 来 文 ( (Hbrew)、 阿 拉 伯 文 
( (Aabic) 和 希腊 文 ( (Geek)。Wordle 本 身 有 意 不 支持 CJKV 字 体 类 型 ， 
包括 中 文 、 日 文 、 韩 文 和 越南 文 。 因 为 CIKV 字 体 数据 非常 大 ， 需 要 人 花 
费用 户 很 长 时 间 下 载 (因而 其 带宽 成 本 很 高 ) 。 此 外 ， 确 定 表意 符号 
的 字体 边界 需要 非常 复杂 的 机 器 学 习 算法 和 大 量 的 运行 时 数据 结构 ， 
Wordle 无 法 提供 这 些 。 











Unicode 内 核 


由 于 Wordle 只 能 处 理 Unicode 文 本 ， 为 了 理解 后 面 的 一 些 术 语 和 符 
号 ， 你 首先 需要 了 解 以 下 内 容 。 


Unicode P! 标准 提供 了 一 套 通用 的 编码 字符 集 和 一 些 在 计算 机 中 表 
示 这 些 字符 的 规范 ( 即 字 节 序 ) 。 


字符 是 一 个 抽象 的 概念 ， 是 表示 书面 语言 的 原子 单位 。 它 和 “学 
i 


























母 "不 是 一 个 概念 一 一 比如 一 些 Unicode 字 符 (重音 符号 、 元 音 变 音符 
号 、 零 宽 连 接 符 ) 只 有 和 其 他 字符 组 合 时 才 是 有 意义 的 。 每 个 字符 都 
有 一 个 名 字 (如 项 朋 a 比如 : 是 否 是 数 
字 、 是 否 是 大 写字 母 、 表 示 方 式 是 否 是 从 右 到 左 、 是 否 是 变 音符 等 。 











一 个 字符 集 或 者 字符 指令 系统 则 是 男 一 种 抽象 ， 它 是 字符 的 无 序 
集合 。 一 个 给 定 的 字符 或 者 属于 、 或 者 不 属于 一 个 给 定 的 字符 集 。 
Unicode 的 目标 是 提供 一 种 通用 的 字符 集合 一 一 包含 当前 正在 使 用 中 的 
以 及 历史 上 曾经 使 用 过 的 每 一 种 书面 语言 的 每 一 个 字符 一 一 其 标准 也 
在 不 断 地 修改 以 使 得 它 能 够 更 接近 该 目标 。 


一 个 编码 的 字符 集会 为 每 个 字符 唯一 指定 一 个 整数 作为 这 个 字符 
的 码 点 。 一 旦 为 字符 分 配 了 特定 的 码 点 ， 就 可 以 通过 数字 来 代表 这 些 
字符 了 。 通 章 情 况 下 ， 码 点 的 摘 述 是 由 一 个 大 写 的 U、 一 个 加 号 字 








符 “+” 以 及 一 个 十 六 进 制 数字 组 成 。 例 如 ， 本 章 之 前 提 到 的 单 引 号 字符 
的 码 点 是 U+2032 © 





编码 的 字符 是 按照 它们 所 属 的 语系 来 组 织 的 ， 而 语系 内 部 会 进 一 
步 将 各 种 强 相关 的 子 符 组 合 在 一 起 进而 划分 为 多 个 分 块 。 举 个 例子 ， 
拉丁 文 语系 (很 多 欧洲 语言 都 是 属于 该 系 ) 被 划分 成 基础 拉丁 文 ( 包 
含 足 够 表示 拉丁 文 和 英文 的 字符 ) 、Latin-1 补 码 (包括 一 些 特殊 符号 
和 一 些 控制 符号 的 结合 ) 、 拉 丁 扩展 A、 拉 丁 扩展 B 等 。 














当 需 要 真正 地 把 文字 显示 在 屏幕 上 时 ， 计 算 机 程序 解释 字符 序列 
并 使 用 一 种 字体 来 生成 符合 上 下 文 所 需要 的 顺序 和 位 置 的 字形 。 


崩 测 语言 并 删除 停 用 词 


文本 中 包含 很 多 “the”、“it* 和 “to” 既 不 有 趣 也 不 会 令 人 惊奇 。 为 了 
避免 Wordle 变 得 让 人 感觉 无 聊 ， 需 要 删除 在 每 一 种 可 识别 的 语言 中 包 
含 的 这 些 停 用 词 。 对 于 给 定 的 文本 ， 想 要 知道 应 该 删除 哪些 停 用 词 ， 
我 们 首先 需要 猜测 该 文本 是 什么 语言 。 








识别 字体 类 型 和 识别 语言 不 同 ， 因 为 很 多 语言 可 能 使 用 相同 的 字 
体 (例如 法 语 和 意大利 语 ， 都 是 使 用 拉丁 语 字 体 ) 。 


Wordle 采 用 了 一 种 直截了当 的 方式 来 猜测 文本 所 属 的 语言 ， 它 从 
文本 中 选择 50 个 最 常见 的 单词 ， 计 算 这 些 单词 在 每 种 语言 的 集 用 词 列 


表 中 出 现 的 次 数 。 哪 个 俘 用 词 列 表 的 计数 值 最 高 ， 束 认为 该 文本 的 语 
言 即 为 该 停 用 词 列表 所 属 的 语言 。 


如 何 创建 一 个 停 用 词 列表 ? 如 同 之 前 所 述 的 关于 一 个 “单词 ”的 定 
义 ， 这 种 问题 属于 主观 上 的 判断 问题 ， 而 不 是 科学 。 通 常情 况 下 ， 肯 
先 对 一 个 大 语料库 的 所 有 单词 进行 计数 ， 选 择 出 现 频率 最 高 的 单词 。 
然而 ， 你 可 能 会 发 现 某 些 高 频 词 对 输出 结果 起 到 民 好 的 效果 ， 而 其 他 
低频 词 看 起 来 只 是 给 结果 增加 噪音 干扰 ， 因 此 可 能 需要 稍微 调整 一 下 
停 用 词 列表 。 











Wordle 的 很 多 停 用 词 列 表 来 自 于 用 户 的 收集 ， 他 们 布 望 Wordle 能 够 
更 好 地 支持 他 们 的 语言 。Wordle 的 Web 站 点 对 这 些 用 户 表达 了 谢意 。 


默认 情况 下 ，Wordle 在 下 一 步 处 理 之 前 ， 会 从 单词 列表 中 删除 包 
舍 的 选 定语 言 的 售 用 词 ， 但 Wordle 用 户 也 可 以 通过 设置 菜单 复 选 框 ， 
来 修改 默认 值 的 设置 。 


给 单词 分 配 权重 


Wordle 采 用 直截了当 的 方式 为 每 个 单词 赋 数 值 权重 。 其 采用 的 公 
式 是 权重 = 单词 计数 。 





布局 


一 旦 你 对 文本 进行 了 分 析 ， 结 果 束 是 一 个 单词 列表 ， 每 个 单词 都 
有 一 个 基于 其 在 文本 中 的 频率 计算 得 到 的 数值 权重 。Wordle 会 对 这 些 
权 值 以 任意 尺度 进行 范 化 ， 这 样 就 决定 了 影响 结果 图 片 的 不 同 第 数 的 
尺度 (如 本 章 后 面 所 述 的 层次 边界 框 的 最 小 尺寸 ) 。 你 现在 可 以 把 文 
字 转 变 成 图 形 对 象 并 把 这 些 对 象 放 到 空间 的 某 个 位 置 。 








把 加 权 单 词 转换 成 图 形 


对 于 每 个 单词 ，Wordle 构 建 了 一 种 字体 ， 其 点 大 小 和 该 单词 缩放 
的 权 值 相等 ， 然 后 使 用 字体 来 生成 Java2D 图 形 〈 见 例 3-2) 。 


例 3-2: 如 何 把 字符 串 转 换 成 图 形 


private static final FontRenderContext FRC 

=new FontRenderContext(null,true,true) ; 

public Shape generate(final Font font,final double weight, final String word , 
final double orientation){ 

final Font sizedFont=font.deriveFont (( (foat)weight); 

final char[]chars=word.toCharArray () ; 

final int direction=Bidi.requiresBidi(chars, 0, chars.length)? 

Font. LAYOUT_RIGHT_TO_LEFT:Font.LAYOUT_LEFT_TO_RIGHT; 
final GlyphVector gv= 

sizedFont.layoutGlyphVector(FRC,chars, 0, chars.length,direction); 
Shape result=gv.getOutline () ; 

if(orientation! =0.0) { 

result=A ffineTransform. getRotateInstance(orientation) 
.createTransformedShape(result) ; 

} 

return result; 


} 


展现 区 域 





Wordle 通 过 以 下 几 种 方式 来 售 算 最 终 的 单词 云 所 能 黎 关 的 所 有 区 
域 : 检查 每 个 单词 的 边界 框 ， 对 区 域 面 积 求 和 ， 调 整 字体 小 的 单词 和 
边界 大 的 单词 的 面积 使 得 它们 显示 上 更 紧 恋 。 绪 采 区 域 和 目标 区 域 成 
一 定 比 例 (目标 区 域 是 根据 Wordle 的 应 用 小 程序 在 运算 时 的 布局 的 长 
宽 等 维度 的 数值 计算 得 到 的 ) 。 

















用 于 调整 “展现 区 域 " 的 常量 和 Wordle 的 布局 所 在 的 区 域 ， 是 通 
过 “ 久 经 考验 ”的 传统 方式 实现 ， 即 应 用 不 同 的 数值 进行 尾 试 ， 直 到 整 
体 看 起 来 “不 错 ” 且 运行 “ 民 好 ”。 正如 实际 情况 所 示 ， 展 现 区 域 的 精确 的 
面积 大 小 十 至 天 重要 的 ， 因 为 区 域 边界 在 布局 中 古 作 为 约束 条 件 。 如 
FARA RK BRA, EAR eRe, ERE AE 
词 会 “出 局 ?， 留 下 一 个 圆圈 (因为 一 旦 一 个 单词 不 能 被 放置 在 展现 区 
域 中 ，Wordle 系 统 将 放宽 约束 条 件 ， 结 果 是 所 有 单词 都 会 被 随机 分 布 
在 一 些 初 始 位 置 ) 。 如 果 展 现 区 域 面 积 太 大 ， 结 果 将 是 杂乱 的 一 团 
(因为 任何 不 存在 交 谷 的 位 置 都 是 可 以 接受 的 。 

















需要 特别 注意 的 一 点 是 ， 对 于 异常 长 的 单词 ， 它 的 某 个 维度 的 取 
值 可 能 比 计 算 其 所 基于 的 区 域 的 宽度 和 高 度 的 值 都 要 大 。 你 必须 保证 
你 的 展现 区 域 面 积 足 够 大 ， 至 少 可 以 包含 最 长 的 单词 。 











请 记 住 ， 展 现 区 域 只 是 一 个 抽象 的 空间 ， 一 个 和 像素 、 尺 寸 或 者 
任何 衡量 尺度 不 相关 的 坐标 系统 。 在 这 个 抽象 空间 中 ， 你 可 以 对 单词 





形状 进行 布局 ， 并 执行 交付 检查 。 当 需要 真正 地 将 像素 放 到 屏幕 上 
时 ， 你 还 可 以 对 屏幕 单元 进行 缩放 。 





BCE 





为 放置 单词 创建 完 展现 区 域 后 ， 需 要 把 单词 放置 到 该 区 域 中 。 全 
局 的 放置 策略 是 采用 随机 信 梦 算法 ， 其 中 单词 是 一 次 一 个 地 放置 在 展 
现 区 域 中 。 一 旦 放置 了 某 个 单词 ， 它 的 位 置 就 不 会 再 改变 








Wordle 为 用 户 提 供 了 不 同 的 放置 策略 选项 。 这 些 策略 可 以 通过 确 
定 每 个 单词 “ 想 去 何方 ”的 方式 ， 来 影 啊 Wordle 最 终生 成 的 图 像 的 形状 和 
结构 。 在 Wordle 网 站 上 ， 可 以 有 两 种 选择 ， 即 中 心 线 和 字母 中 心 线 。 
这 两 种 策略 都 把 单词 放 在 展现 区 域 的 水 平 中 心 线 附近 (并 不 是 严格 地 
在 该 中 心 线 上 ， 而 是 随机 分 布 分 散在 中 心 线 附 近 ) 。 字 母 策略 以 字母 
顺序 对 单词 进行 排序 ， 然 后 沿 着 X 坐 标 轴 把 单词 分 散 放 置 在 展现 区 域 
Ho 








ELEH BE BEANS RME H] LA EABAR o HN, AER 
类 数据 一 一 包含 哪些 单词 通常 互相 使 用 的 信息 ， 这 种 放置 策略 可 以 确 
保 每 个 出 现在 该 聚 类 中 最 后 一 个 单词 附近 的 单词 都 会 被 放置 到 该 展现 
区 域 中 ( 见 图 3-16) ° 


Constitution 
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图 3-16: 聚 类 放置 策略 结果 ( 见 彩 图 18) 





单词 的 形状 是 通过 相应 的 权 值 降序 排序 。 如 例 3-3 所 示 的 布局 ， 其 
结果 如 图 3-17 所 示 。 例 3-3: 最 后 终于 揭秘 的 Wordle 算 法 


For each word w in sorted words: 
placementStrategy.place(w) 

while w intersects any previously placed words: 
move w a little bit along a spiral path 
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图 3-17: 单词 <“Denmark” 所 走 过 的 路 ( 见 彩 图 19) 


为 了 使 事情 变 得 更 加 复杂 一 点 ，Wordle 选 择 性 地 使 单词 包含 在 展 
现 区 域 的 整个 矩形 边界 内 ， 这 也 是 为 什么 要 猜测 整 件 事情 的 规模 的 一 
个 很 重要 的 原因 。 如 采 启 用 矩形 边界 约束 条 件 ， 交 共处 理 规则 看 起 来 
如 例 3-4 所 示 。 


例 3-4: 展现 区 域 中 的 约束 性 单词 


while w intersects any previously placed words: 
do{ 

move w a little bit along a spiral path 

}while any part of w is outside the playing field and 
the spiral radius is still smallish 
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不 可 行 的。 以 下 是 Wordle 所 采取 的 方法 ， 它 保证 处 理 速 度 能 够 足够 
快 ， 
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比较 代价 低 的 特性 ， 它 递归 地 把 单词 的 边界 框 分 成 更 小 的 矩形 ， 生 成 
一 棵 由 矩形 框 生 成 的 树 ， 其 叶子 市 点 包含 单词 的 形状 分 块 ( 见 图 3- 
18) 。 虽 然 构建 这 样 的 层次 边界 框 成 本 很 高 ， 但 该 成 本 在 布局 中 得 到 
了 很 大 的 降低 。 为 了 测试 冲突 ， 程 序 递归 地 处 理 相互 重 谷 的 矩形 框 ， 
当 存 在 两 个 叶子 市 护 重 登 或 者 当 所 有 可 能 存在 重合 的 分 文部 被 排除 时 
程序 就 结束 。 通 过 处 理 最 小 尺寸 的 叶子 矩形 和 对 叶子 矩形 框 进行 稍 
微 “ 脱 胀 ”扩大 ， 在 布局 上 ， 单 词 边框 之 间 束 可 以 得 到 “免费 *、 让 人 和 客 心 
的 边 距 。 




















宽 阶 段 冲突 检测 





在 选择 一 对 单词 测试 它们 是 否 存 在 交 登 时， 最 简单 的 方法 钙 对 当 
前 的 候选 单词 和 所 有 已 经 置 位 的 单词 进行 测试 。 这 种 冲突 检测 方法 需 
要 比较 的 次 数 为 N* ， 当 你 有 200 个 左右 的 单词 需要 测试 时 ， 冲 突 检 测速 
度 束 会 过 于 绥 慢 。 因 此 ，Wordle 采 取 了 一 些 额 外 的 措施 来 尽量 避免 冲 


突 测试 。 


BAL 


对 以 上 冲突 检测 方法 的 一 个 简单 有 效 的 改进 是 基于 如 下 的 观察 
如 果 单 词 A 和 单词 B 交 秋 ， 如 果 稍 微调 整 A 的 位 置 ， 很 有 可 能 A 还 会 和 B 
交 肥 。 因 此 ，Wordle 把 和 一 个 候选 单词 最 经 常 交友 的 单词 缓存 起 来 
首先 测试 这 些 经 常 交 县 的 单词 。 


空间 索引 


为 了 进一步 减少 冲突 检测 次 数 ，Wordle 采 用 了 计算 几何 学 中 的 “区 
HXH” (rgion quadtree) 算 法 ， 它 递归 地 把 二 维 空间 (在 Wordle 中 ， 
即 展 现 区 域 ) 划分 成 4 个 矩形 区 域 。 在 区 域 四 又 树 算 法 中 ， 四 叉 树 作为 
空间 索引 树 ， 能 够 高 效 地 把 单词 列表 和 其 他 候选 项 进行 比较 。 一 旦 在 
展现 区 域 中 放置 了 某 个 单词 ，&nbsp; Wordle 就 会 搜索 包含 该 单词 的 最 
小 的 四 叉 树 节操 。 然 后 ， 当 放置 下 一 个 单词 时 ， 束 可 以 通过 查询 该 四 
义 树 ， 在 交合 测试 中 排除 很 多 已 经 车 位 的 单词 。 





高 效 的 神 突 检测 是 一 个 很 大 的 研究 方向 ， 在 Christer Ericson 的 书 
«Real-Time Collision Detection) (2005 年 ) 对 其 中 一 些 研究 成 果 做 了 
很 好 的 综述 。 那 些 对 类 似 于 Wordle 中 所 用 到 的 图 形 算法 感 兴趣 的 人 ， 
我 很 推荐 这 本 书 ; 我 目 己 对 四 又 树 的 实现 也 是 基于 该 书 对 这 种 算法 的 
论述 o 
[1] 参考 http: //github.com/vcl/cue. language ° 
[2] 如 果 你 想 了 解 目 然 语言 理解 这 门 亏 术 ， 请 查看 本 书 的 姊妹 篇 《数据 


之 美 》 中 Peter Norvig 写 的 关于 自然 语言 处 理 这 一 章 。 
[3]: 参见 http: //unicode.org ° 





Wordle 是 优秀 的 信息 可 视 化 吗 


如 果 你 认为 Wordle 是 严格 意义 上 的 信息 可 视 化 工具 ， 它 在 设计 的 
某 些 方面 存在 误导 或 者 干扰 用 户 的 潜在 可 能 ， 有 必要 指出 并 加 以 批 
判 。 以 下 是 我 认为 Wordle 存 在 的 不 足 之 处 。 





单词 大 小 调整 太初 级 








Wordle 在 计算 其 字体 大 小 时 ， 并 没有 考虑 单词 的 长 度 ， 或 者 它 所 
绘制 的 文字 的 字形 。 其 结果 钙 ， 给 定 使 用 次 数 相同 的 两 个 单词 ， 包 含 
的 字母 越 多 的 单词 在 屏幕 上 会 占用 更 多 的 空间 ， 这 可 能 会 给 读者 市 来 
这 样 的 印象 ， 单词 越 长 ， 其 出 现 频 度 越 高 。 


此 外 ， 据 我 所 知 ， 在 天 于 单词 大 小 和 感知 上 的 相对 权重 的 关系 上 
没有 任何 研究 。 更 糟糕 的 是 ， 和 常见 的 策略 是 把 单词 的 权 值 根据 其 平方 
根 进行 缩放 (为 了 体现 单词 拥有 区 域 而 不 仅仅 是 长 度 这 一 事实 ) ， 这 
只 会 使 Wordle 显 得 很 无 聊 。 








Ble SIC 


在 你 的 电脑 屏幕 的 中 央 提 供 了 最 宝 贯 的 几 个 维度 ， 令 人 吃惊 的 
，Wordle 在 闫 色 使 用 上 非常 “散漫 *。 Wordle}, Bf ESIC 
的 ; 它 仅仅 是 用 来 提高 单词 边界 的 对 比 度 和 增加 一 些 美感 。 





rau 














颜色 可 以 用 于 对 各 个 维度 进行 编码 ， 如 聚集 (意味 着 这 些 单词 通 
常 是 一 起 使 用 的 ) 或 者 统计 学 意义 (如 图 3-19 中 的 总 统 就 职 演说 的 单词 
Z) 。Wordle 还 可 以 使 用 颜色 在 同一 空间 表示 两 种 或 者 更 多 不 同 的 文 
本 。 





值得 一 提 的 是 ，Wordle 并 没有 为 色 言 的 读者 做 出 什么 特意 安排 ， 
昌 然 人 们 总 是 可 以 通过 应 用 小 程序 的 色彩 菜单 栏 创 建 一 个 定制 的 调 色 
板 。 
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图 3-19: 这 个 演讲 使 用 了 很 多 “Government”( 政 府 ) 这 个 词 ， 
a a a ee eeee 
在 语料库 中 是 一 个 不 寻常 的 单词 ; “people” AR) 被 用 了 很 多 ， 其 
率 在 该 演讲 中 非 同 寻常 ( 见 彩 图 20) 
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字体 是 使 人 充满 遐想 的 


Wordle 的 很 多 字体 都 更 倾 回 于 美学 和 表现 力 ， 而 不 是 可 读 性 。 这 
么 做 的 原因 一 部 分 是 因为 Wordle 的 Web 站 点 设计 一 一 如 果 缺 乏 形 式 多 样 
的 字体 ， 画 面 将 是 单调 的 。 最 重要 的 是 ，Wordle 中 的 字体 必须 看 起 来 
很 优美 ， 这 意味 着 它 不 一 定 很 适合 于 正文 文本 。 








对 于 易 读 性 至 天 重要 的 应 用 ，Wordle 提 供 了 Ray Larabie 的 
Expressway FIE lU ， 该 字体 被 美国 运输 部 作为 标准 字母 。 


字数 计数 不 够 具体 





Wordle 对 《New Testament) 1 中 的 每 一 卷 的 页 面 中 出 现 
的 “Lord”( 上 沉 ) 这 个 单词 的 次 数 进行 了 求 和 ， 但 是 它 没 有 提供 任何 关 
于 各 个 章节 的 区 别 的 信息 。 仅 仅 简单 地 对 单词 计数 并 不 能 对 相似 的 文 
本 做 出 有 意义 的 比较 。 比 如 有 一 个 博客 帖子 ， 突 出 该 帖子 和 该 博客 的 
其 他 帖子 的 不 同 之 处 ， 或 者 说 明 它 和 其 他 博客 的 在 同一 主题 上 的 区 
别 ， 甚 至 是 说 明 该 帖子 和 新 闻 报 道 文章 的 用 语 的 不 同 ， 这 些 方面 的 说 
明 可 能 是 最 具有 局 迪 性 的 。 





存在 很 多 统计 学 方法 ， 可 以 应 用 于 一 篇 “样本 ”文章 ， 来 基于 一 
些 “范文 "的 正文 来 抽取 “样本 ”中 的 特定 字符 ， 尤 其 注意 一 些 单词 的 使 用 
在 统计 上 十 更 重要 的 。 除 了 单词 出 现 频 度 ， 还 可 以 对 单词 权重 进行 更 
细致 深入 地 探析 ， 然 后 应 用 Wordle 布 局 算法 来 展示 结果 。 








在 分 析 每 个 总 统 就 职 演说 号 时 ， 我 都 探索 了 这 个 想法 ， 把 每 个 演 
说 都 和 当时 最 接近 的 5 个 演讲 、10 个 最 接近 的 演讲 以 及 所 有 其 他 的 就 职 
演说 进行 了 比较 。 这 种 分 析 的 优点 是 可 以 揭示 一 些 不 可 预见 的 单词 。 
举 个 例子 ， 图 3-20 是 哈里 .杜鲁门 在 1948 年 的 就 职 演 说 的 可 视 化 。 左 侧 
是 该 就 职 演说 中 使 用 的 单词 的 Wordle 形 式 的 展现 ， 右 侧 是 他 那个 时 代 
的 其 他 总统 所 使 用 次 数 更 多 的 单词 的 展现 。 该 可 视 化 展现 说 明了 杜 鲁 
门 的 演说 强调 的 是 对 外 政策 。 
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图 3-20: 哈里 .杜鲁门 在 1948 年 的 总 统 
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号 职 演说 :和 他 同时 代 的 其 他 


总 统 就 职 演说 相 比 ， 杜 鲁 门 的 演说 当中 很 明显 缺乏 那些 红色 标注 的 单 


词 ( 见 彩 图 21) 


[1] Ray Larabie 是 加 拿 大 的 一 名 字体 设计 学 家 。 他 创作 提供 了 很 多 免费 


字体 ，Expressway 是 其 中 一 种 
[2] 《新 约 全 书 》， 共 27 卷 。 


[3] 参考 http: //researchweb.watson.ibm.com/visual/inaugurals/ ° 


如 何 真 正 使 用 Wordle 











Wordle 不 是 为 可 视 化 专家 、 文 本 分 析 专 家 甚至 是 有 经 验 的 计算 机 
用 户 而 设计 的 。 我 试 着 把 Wordle 做 得 尽 可 能 像 个 工具 。 





在 撰写 本 章 时 ， 人 们 在 Wordle 画 廊 中 已 经 创造 、 保 存 了 超过 140 万 
的 “单词 云 ”。 这 些 单词 云 被 用 于 : 忌 结 和 修饰 商务 演示 和 博士 论文 ， 
插图 说 明 痢 的 文章 和 电视 新 闻 报 道 ， 提 炼 和 抽象 受害 者 个 人 痛苦 的 回 
忆 。Wrodle 还 发 现形 形 色色 的 充满 热情 的 教师 社区 ， 他 们 使 用 Wordle 来 
展示 拼写 列表 、 总 结 话题 以 及 促使 不 识字 的 青年 参与 到 享受 文本 的 乐 
趣 中 。 














如 表 3-1 的 调查 结果 表明 ( 〈Vkgas、Wattenberg 和 Feinberg ， 
2009) ， 使 用 Wordle 激 发 了 人 们 的 创造 力 ， 人 们 会 觉得 他 们 正在 做 创 
造 性 的 事情 。 


表 3-1: 人 们 创造 Wordle 时 的 感受 


赞成 % 中 立 % 不 赞成 % 
激发 我 的 创造 力 4 
我 感到 一 种 情绪 反应 66 22 12 
从 文本 中 我 学 到 了 一 些 新 的 知识 63 24 13 


它 证 实 了 我 对 文本 的 理解 





Wordle 使 我 感到 困惑 


因此 ， 通 过 对 可 视 化 效能 应 用 传统 的 学 术 评估 一 一 “从 文本 中 我 学 
到 了 一 些 新 的 知识 ”一 一 至 少 可 以 认为 Wordle 是 比较 成 功 的 。 但 是 
Wordle 真 正 内 光 之 处 在 于 其 交际 作品 的 创作 。 使 用 Wordle 的 人 们 感觉 他 
们 似乎 创造 了 一 些 东 西 ， 它 成 功 地 表示 一 些 有 意义 的 事物 ， 并 准确 地 
反映 或 增强 了 源 文本 。 这 种 意义 看 起 来 主要 是 直观 的 ， 因 为 很 多 人 并 
没有 意识 到 单词 大 小 和 单词 频 度 是 相关 的 (相反 地 ， 猜 测 该 大 小 表 
示 “ 情 感 重视 ”甚至 是 “单词 意义 ”) 。 

















Wordle 的 特性 绿 于 文本 的 特性 。 只 是 简单 地 把 一 个 单词 放 到 屏 攻 
上 ， 其 字体 要 么 对 单词 本 映 的 釉 义 进行 补充 ， 要 么 对 其 进行 反衬 ， 可 
以 马上 使 读者 产生 共鸣 (实际 上 ， 在 公共 画廊 上 保存 了 成 干 上 万 的 单 
W) 。 当 你 把 两 个 或 者 更 多 的 单词 并 排 展示 时 ， 一 个 有 文化 的 人 束 会 
自然 而 然 地 去 理解 该 序列 化 单词 。Wordle 对 单词 的 随机 组 合 给 人 们 创 
造 了 喜悦 、 惊 喜 、 某 种 程度 的 认可 ， 以 及 如 证 般 沿 发 了 人 们 的 洞察 
pa 





为 传统 的 信息 可 视 化 使 用 Wordle 


Wordle 的 信息 可 视 化 分 析 用 途 当 然 可 以 为 专业 用 户 所 用 ， 更 不 用 
说 Wordle 所 具备 的 特定 的 情感 和 交际 特性 。 为 了 满足 那些 使 用 Wordle 
给 “加 权 文 本 ”创建 可 视 化 的 用 户 ， 其 权重 不 一 定 是 基于 单词 的 出 现 频 





度 ，Wordle 的 Web 站 点 提供 了 “高 级 ”用户 界面 ， 用 户 可 以 输入 包含 任意 
(可 选 ) 色彩 的 加 权 单 词 或 短语 的 表格 数据 。 


Wordle 的 更 高 级 的 使 用 方式 可 能 是 通过 “单词 云 生成 强 ” 控 制 台 应 用 
程序 ， 可 以 通过 IBM 的 alphaWorks Web 站 点 进行 查看 (1 © 





ManyEyes 协 作 式 数据 可 视 化 网 站 还 把 Wordle 作 为 文本 可 视 化 选 
项 ， 其 他 的 还 有 创新 型 的 Phrase Net 和 Word Tree 可 视 化 (以 及 更 传统 的 
IEG) |! 
[1] 参考 http: //www.alphaworks.ibm.com/tech/wordcloud ° 
[2] 参考 


http: //manyeyes.alphaworks.ibm.com/manyeyes/page/ Visualization_Optio 
ns.html ° 


结束 语 


人 们 通常 希望 保存 和 分 享 他 们 创作 的 Wordle; 他 们 利用 Wordle 进 
行 沟通 。 美 丽 的 可 视 化 在 揭示 事物 的 本 质 时 ， 也 给 人 人们 提供 了 乐趣 。 
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第 4 章 ”色彩 : 数据 可 视 化 的 “ 灰 她 女 ” Michael 


Driscoll 





Ge 


避免 市 来 灾难 成 为 给 信息 增添 色彩 时 的 首要 原则 : 最 重要 的 十， 
不 要 造成 仿 害 。 


一 一 Edward Tufte, 

«Envisioning Information》( (Gaphics 出 版 社 ) 
色彩 是 数据 可 视 化 中 滥用 和 忽视 最 严重 的 工具 之 一 : 当 我 们 做 出 
不 好 的 色彩 选择 时 ， 我 们 滥用 了 它 ， 而 当 我 们 依赖 于 功能 很 弱 的 软件 
默认 值 设 置 时 ， 我 们 忽视 了 它 。 虽 然 历史 上 工程 师 和 最 终 用 户 都 没有 


用 好 色彩 这 个 工具 ， 然 而 如 有 果 能 够 矢 用 它 ， 它 将 是 一 个 无 与 伦比 的 可 
视 化 工具 。 





绝 大 多 数 人 在 穿着 亮 红 色 的 Underoos 1 出门 前 会 三 思 而 后 行 。 要 
古 我 们 在 为 资讯 图 像 选 择 色 彩 时 也 能 如 此 慎重 束 好 了 ! 其 区 别 在 于 我 
们 当中 很 少 有 人 设计 目 己 的 衣服 ， 而 我 们 都 需要 修饰 目 己 的 资讯 图 
像 ， 使 得 色彩 能 够 符合 我 们 的 目的 (至少 直 到 好 的 色彩 板 (如 


ColorBrewen) 变 得 普 所 起 来 ) 。 


在 思索 如 何 实现 Dataspora 实 验 室 的 PitchFX 观 罕 仪 的 色彩 时 ， 我 提 
出 了 一 个 基本 的 目标 取 辐 问题 : 为 什么 在 数据 图 像 中 使 用 色彩 ? 我 们 
随后 将 探讨 该 问题 。 


为 什么 在 数据 图 像 中 使 用 色彩 


对 于 一 个 简单 的 数据 集 ， 单 一 色彩 是 足够 的 (甚至 是 更 好 的 ) 。 
例如 ， 图 4-1 显 示 了 大 联盟 棒球 员 Oscar Villarreal 在 2008 年 的 287 次 投 
据 的 散 点 图 。 只 需要 描述 二 维 数 据 一 一 


“好 球 带 ( (srike zone)” D 的 x 轴 和 y 轴 坐标 日 两 色 就 足够 
了 。 实 际 上 ， 这 种 散 点 图 是 数据 集 的 无 损 表示 (假定 没有 数据 点 完全 


Be) ， 也 是 其 最 佳 的 选择 。 








X 坐标 
4-1: 使 用 x/y 坐 标 平面 图 表示 的 投掷 位 置 


但 是 如 果 我 们 和 硕 望 了 解 更 多 ， 该 怎么 做 ? 举 个 例 于 ， 不 同 的 投掷 
(曲线 球 、 快 球 ) 最 后 的 落地 点 在 哪里 ? 它们 的 速度 如 何 ? 可 视 化 占 
用 了 两 个 维度 ， 但 是 其 所 描述 的 现实 世界 的 范畴 却 权 宽泛 得 多 。 





数据 可 视 化 的 典型 挑战 是 把 高 维度 的 数据 投影 到 低 维度 的 画布 
上 。 通 常 来 说 ， 我 们 永远 都 不 要 把 二 者 颠倒 (对 数据 可 视 化 生成 比 已 
有 更 多 的 维度 ) 。 


回 到 我 们 之 前 讨论 的 有 关 的 棒球 投掷 的 例 和 于 ， 如 采 想 要 对 它 增 加 
一 维 数 据 一 一 投掷 类 型 一 一 到 汇总 图 中 ， 我 们 可 以 通过 以 下 几 种 方式 
来 实现 : 


1. 绘 图 符号 。 可 以 改变 我 们 所 使 用 的 图 形 (Bl > AEBS) 。 


2. 小 的 多 重 图 形 。 我 们 可 以 在 空间 上 增加 一 些 额 外 维度 ， 创 建 一 
系列 小 的 图 形 。 


3. 色 彩 。 我 们 可 以 对 数据 进行 着色 ， 在 一 个 色彩 空间 内 对 额外 的 
维度 进行 编码 。 


在 可 视 化 中 你 应 该 采用 哪 一 种 技术 取决 于 数据 的 本 质 和 展现 的 画 
布 媒介 。 我 将 通过 例子 来 描述 这 3 种 方法 。 


使 用 多 种 绘图 符号 


在 图 4-2 中 ， 我 通过 使 用 不 同 的 绘图 符号 ， 在 绘图 中 增加 了 投 据 类 
型 的 属性 维度 。 





X HEER 


4-2: 绘图 符号 表示 的 位 置 和 投掷 类 型 


我 认为 该 可 视 化 是 可 耻 的 失败 。 有 两 个 原因 令 我 们 对 这 类 图 形 感 
到 头痛 : 一 是 区 别 显 著 的 图 形 需 要 分 散 我 们 额外 的 注意 力 (和 学 术 上 
所 谓 的 像 色彩 那样 “前 意识 注意 的 ( (peattentively processed)” (4 暗示 不 
同 ) ， 二 是 即使 我 们 对 符号 进行 视觉 解码 ， 我 们 必须 把 这 些 符号 和 它 
们 的 语义 属性 进行 匹配 (诚然 ， 通 过 切 尔 诺 夫 脸 谱 图 ( (Cernoff faces) 


加 或 者 其 他 符号 标识 ， 可 以 减少 工作 量 ， 因 为 它们 的 属性 映射 是 不 证 
自明 的 ) 





[1] Underoos 是 一 种 内 衣 品 牌 ， 由 Fruit of the Loom 公 司 制 造 ， 其 特征 是 
人 花哨， 充满 性 感 和 幻想 。 

[2] 美国 职业 棱 球 联赛 中 档次 最 高 的 一 级 。 

[3] “好 球 带 ” 指 的 是 以 棱 球 击 球员 之 肩 部 上 缘 与 球 裤 上 缘 之 中 间 平 行 线 
作为 上 限 ， 以 膝盖 下 缘 作为 下 限 ， 通 过 本 垒 板 上 方 的 空间 。 

[4] preattentive processing 指 的 是 在 信息 可 视 化 中 目 动 从 整个 可 视 化 区 
域 中 识别 出 基本 的 特征 。 可 以 参考 http: //www.infovis- 
wiki.net/index.php/Preattentive_processing 了解 更 多 。 

[5] 切 尔 庄 夫 脸谱 图 是 一 种 多 元 统计 学 表示 方式 ， 它 以 多 元 数据 显示 人 
脸 ， 通 过 形状 、 大 小 、 位 置 、 方 癌 各 个 变量 来 表示 眼睛 、 耳 末 、 嘴 

巴 、 盘 子 等 。 其 思想 是 人 们 可 以 很 容易 识别 人 脸 的 微小 变化 。 请 参考 
http: //en.wikipedia.org/wiki/Chernoff_face 了解 更 多 信息 。 

















在 辆 布 上 使 用 小 的 多 重 图 形 


虽然 Edward Tufte 已 经 做 了 很 多 工作 来 促进 小 的 多 重 图 形 在 信息 图 
形 中 的 应 用 ， 在 分 块 化 的 画布 中 增加 额外 的 维度 是 一 款 很 优秀 的 方 
式 。 这 种 技术 已 经 被 应 用 于 方方面面 ， 从 伽利略 的 “太阳 黑子 说 明 
图 ”到 William Cleveland 的 “网 格 图 ”。 随 着 Scott McCloud 因 创建 了 令 人 
惊喜 的 卡通 漫画 而 变 得 人 所 缘 知 ， 连 环 画 能 够 讲述 故事 ， 而 这 一 能 力 
是 单一 、 整 体 的 画布 所 缺乏 的 。 


如 岁 4-3 所 示 ，Oscar 扔 出 的 4 种 类 型 的 投掷 在 水 平方 同上 的 分 组 。 
通过 减少 图 像 尺 寸 ， 我 们 降低 了 在 位 置信 息 显 示 上 的 分 辩 率 。 但 是 由 
此 换 来 的 是 ， 在 第 一 张 图 像 中 无 法 识别 、 在 第 二 张 图 像 中 (通过 多 种 
符号 ) 无 法 分 辨 的 模式 现在 这 张 图 像 中 开始 变 得 清晰 了 ( (Ocar 
快 球 位 置 很 低 ， 而 请 球 位置 很 高 ) 。 








图 4-3: 通过 切面 显示 的 位 置 和 投 戎 类 型 


在 印刷 媒介 上 ， 在 空间 上 切 分 多 重 图片 效 果 尤 其 显著 ， 这 种 方式 
可 以 显示 一 个 屏幕 上 每 平方 现 寸 所 显示 的 点 数 的 10 倍 。 人 额外 的 图 形 还 
可 以 通过 列 和 行 的 方式 进行 排列 ， 作 为 散 扣 图 矩阵 显示 (请 参阅 统计 
TERAsplomenz |!) 。 











[1] 关于 统计 工具 R， 你 可 以 访问 http: /www.r-project.org/ 了解 更 多 。 
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FER4-47, REH TAER RRR oS DOE ET aS. BRAY 
速度 。 我 选择 的 色彩 板 是 在 Lab 色 彩 空间 趾 中 沿 着 一 个 维度 变化 的 (可 
以 把 它 想象 成 “ 红 - 蓝 ”维度 ) ， 且 同时 能 够 维持 恒定 的 亮度 。 
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图 4-4: 位 置 和 投掷 类 型 ， 投 拓 速 度 是 通过 一 维 的 色彩 板 来 显示 的 
( 见 彩 图 22) 





一 方面 ， 维 持 恒定 亮度 有 好 处 ， 因 为 亮度 ( (lminosity) (类 似 于 明 
亮度 ( (bightness)) 决定 了 一 种 色彩 给 人 们 所 带 来 的 视觉 影响 。 亮 丽 的 
色彩 会 突出 显示 ， 暗 淡 的 色彩 会 显得 模糊 。 采 用 亮度 随 色彩 变换 的 色 


彩 板 会 把 人 工 选 择 的 部 分 数据 点 的 色彩 作为 艺术 品 展示 。 








另 一 方面 ， 亮 度 和 色调 不 同 ， 亮 度 具 有 色调 所 不 具备 的 内 在 次 序 
特征 ， 这 一 特征 使 得 它 适 合 于 描述 定量 〈 而 不 是 绝对 ) 维度 的 数据 。 





因为 在 本 章 后 面 我 将 使 用 亮度 对 数据 的 另 一 维度 进行 编码 ， 所 以 
我 决定 在 这 里 采用 色调 对 速度 进行 编码 ， 它 足以 达成 我 们 的 目标 。 我 
只 选择 7 种 色 阶 ， 因 此 (以 有 损 方式 ) 降低 了 对 速度 的 采样 频率 。 把 色 
调 板 划 分 成 过 多 的 色 阶 会 使 我 们 难以 辨别 不 同 的 色调 。 在 该 版 本 的 编 
码 显示 中 ， 不 同 于 所 有 先前 绘图 所 用 的 空心 圆圈 ， 我 还 克 择 使 用 实心 
圆圈 作为 画图 符 。 这 种 编码 显示 通过 色彩 改进 了 对 每 次 投掷 的 速度 的 
直观 可 视 化 : 面积 小 的 色彩 块 看 起 来 不 明显 。 然 而 ， 这 种 选择 把 投掷 
速度 的 可 视 化 展现 和 一 系列 更 小 的 图 片 组 合 在 一 起 ， 其 结果 是 存在 更 
多 的 数据 点 重合。 为 此 ， 我 们 进一步 降低 了 一 些 位 置信 息 的 分 辨 率 
(我 们 很 快 将 试 着 恢复 其 中 一 些 信息 ) 。 

















[1] 参考 http: //en.wikipedia.org/wiki/CIELUV_color_space ° 


为 什么 要 使 用 颜色 


和 绝 大 多 数 的 印刷 媒介 相 比 ， 电 脑 的 显示 空间 更 小 ， 但 是 其 能 够 
显示 的 色 阶 范围 更 广 。 因 此 ， 丰 富 的 色彩 是 电脑 在 显示 上 的 很 大 优 
势 o 


对 于 多 维 数 据 ， 色 彩 可 以 表达 单位 空间 内 额外 的 维度 ， 而 且 可 以 
即时 达到 这 种 效果 。 





颜色 关 异 可 以 在 200 宫 秒 内 被 检测 到 ， 甚 至 在 你 注意 到 和 它 的 变化 之 
前 〈 即 我 之 前 提 到 的 “前 意识 注意 ”的 概念 ) 就 可 以 检测 o 





但 是 在 多 元 图 形 中 使 用 色彩 的 最 重要 的 原因 有 是 因 为 色彩 本 吴 是 多 
维 的 。 我 们 感官 上 的 色彩 空间 一 不论 你 怎么 细 分 一 都 是 三 维 的 。 
现在 ， 我 们 在 可 视 化 中 引入 了 色彩 ， 但 是 我 们 只 对 一 个 维度 进行 了 编 
A: 速度 。 这 给 我 们 市 来 了 男 外 一 个 问题 。 





WR A ve = EN), BY DAA ERIT = RS SS 


理论 上 ， 答 案 是 肯定 的 一 Colin Ware (20004) 曾经 使 用 红 
色 、 蓝 色 和 绿色 作为 三 维 坐 标 轴 研 究 了 这 个 问题 。 (我 们 将 很 快 看 到 
其 他 有 用 的 色谱 划分 方式 。) 然而 ， 该 研究 在 实践 上 却 很 困难 。 最 终 
解决 方式 是 请 一 批 观察 员 来 评估 “红色 ”、“ 蓝 色 ” 和 “绿色 ”的 点 的 数量 
并 进行 展示 ， 但 是 这 种 方式 很 不 直观 。 





另 一 个 复杂 的 因素 是 有 某 种 色盲 〈 也 称 为 双色 盲 ( (dchromacy)， 
一 种 不 同 于 正常 的 三 原色 盲 ( (tichromacy) 的 色 育 类 型 ) 的 人 数 占 的 比 
例 不 低 。 它 可 以 有 效 地 把 对 色彩 的 感知 减少 到 两 个 维度 。 





最 后 ， 事 实 上 我 们 对 所 有 维度 的 色彩 的 感知 不 是 等 同 的 : 有 的 对 
黄色 感知 力 比较 弱 ， 而 有 的 对 蓝 色 感知 力 比较 弱 。 我 们 认为 紧密 相关 
的 “ 红 ” 和 * 绿 ”接收 器 是 通过 复制 单一 长 波 的 接收 器 而 产生 的 〈 据 载 ， 
这 种 方法 对 于 检测 水 果 是 否 成 熟 很 有 用 ) 。 





因为 色盲 人 口 在 整个 人 口中 的 比例 很 高 ， 而 且 对 三 维 色彩 进行 纺 
码 挑战 很 大 ， 我 相信 如 果 使 用 色彩 对 数据 编码 ， 数 据 的 维度 最 好 不 要 
超过 两 个 。 


亮度 作为 恢复 局 部 密度 的 方法 


作为 对 投 折 数 据 可 视 化 的 最 后 一 次 大 代 ， 如 图 4-5 所 示 ， 我 将 介绍 
使 用 亮度 对 局 部 数据 点 的 密度 进行 编码 的 方法 。 运 用 这 种 方法 ， 我 们 
可 以 通过 增加 绘图 符号 的 大 小 的 方式 来 恢复 一 些 损失 的 数据 。 





这 里 ， 我 们 有 效 地 运用 了 二 维 色彩 板 ， 其 中 蓝 色 和 红色 党 着 一 条 
坐标 轴 来 表示 速度 变化 ， 亮 度 沿 着 另 一 条 坐标 轴 来 表示 局 部 密度 的 变 
化 。 正 如 “方法 "一 下 中 所 详细 摘 述 的 ， 这 些 绘图 是 通过 使 用 统计 工具 R 
的 “色彩 空间 包 ”( (clor space package) 来 创建 的 ， 该 包 提 供 了 在 任何 一 
个 主 色 彩 空间 ( \RB、HSV、Lab) 中 指定 颜色 的 功能 。 因 为 Lab 色 彩 衬 
间 的 颜色 变化 和 亮度 无 关 ， 我 选择 该 色彩 空间 来 创建 这 个 特定 的 二 维 
色彩 板 。 
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图 4-5: 位 置 和 投掷 类 型 ， 通 过 二 维 色 彩 板 表示 投掷 速度 和 局 部 密 
( 见 彩 图 23) 


Kea 


关于 亮度 的 最 后 一 点 是 在 数据 可 视 化 中 观测 多 种 不 同 颜色 涉及 编 
程 学 上 的 “ 重 载 *。 也 束 是 说 ， 我 们 依赖 于 认 知 函数 ， 这 些 函 数 为 了 菏 
个 应 用 而 开发 (如 展示 lions)， 而 实际 中 可 以 用 于 其 他 应 用 中 (如 展示 


lines)!!! 。 


我 们 可 以 对 颜色 以 任何 方式 进行 重 载 ， 但 是 只 要 可 能 ， 我 们 还 是 
应 该 选择 自然 的 展现 方式 。 用 亮度 表示 投 气 密 度 给 人 感觉 很 自然 ， 
为 在 投 气 绘 图 中 颜色 越 深意 味 着 投 据 越 远 。 类 似 地 ， 当 通过 色彩 空间 
间 行 抽样 时 ， 我 们 不 妨 选择 目 然 界 中 真实 的 颜色 来 表示 。 目 然 界 中 存 


在 了 人 们 已 经 通过 肉眼 凝视 了 几 百 万 年 的 “色彩 板 *?， 它 远 远 早 在 出 现 
RGB 色彩 空间 之 前 就 已 经 存在 了 。 


[1] lions 和 1lines 只 差 一 个 字母 ， 可 以 利用 “ 重 载 ?>， 使 用 同一 色彩 空间 进 
行 展 示 。 


展望 未 来 : 关于 动画 


本 章 讨论 的 重点 是 使 用 一 般 的 静态 图 形 ， 尤 其 是 使 用 色彩 作为 多 
元 数据 可 视 化 方法 。 我 有 意 地 忽略 了 数据 中 为 一 个 非常 强大 的 维度 : 
时 间 。 时 间 可 以 把 图 像 变 成 动画 ， 从 而 把 几 个 数量 级 的 信息 量 都 纳入 
可 视 化 中 (一 个 震撼 人 心 的 例子 是 Aaron Koblin 对 美国 和 加 拿 大 的 飞行 
模式 所 做 的 可 视 化 ， 在 第 6 章 中 将 会 深入 探讨 ) 。 但 是 把 这 些 信息 植 入 
随时 间 变 化 的 数据 结构 之 中 需要 付出 很 多 努力 ， 而 且 让 数据 以 动画 这 
种 富 信息 化 的 方式 展示 而 不 仅仅 是 在 乞 术 上 达到 美观 的 效果 ， 还 是 非 
常 有 挑战 性 的 。 动 画 可 视 化 的 经 典 方式 (相当 于 静态 可 视 化 中 的 直方 
` 箱 型 图 和 散 点 图 ) 的 发 展 仍然 需要 有 很 长 的 路 要 走 ， 但 是 像 
Processing |"! 这样 的 框架 是 帮助 其 发 展 的 恨 好 的 开端 。 





[1]: 参见 http: //processing.org ° 


方法 


yE 


本 章 谈 及 的 可 视 化 都 是 使 用 R 编 程 语言 和 Lattice 图 形 包 开 


的 。 通 过 R 语 言 构建 二 维 色彩 板 的 代码 如 下 所 示 : 


##colorPalette.R 

##builds an(m xn) 2D palette 

##by mixing 2 hues(col1, col2) 

##and across two luminosities(lum1, lum2) 

##retums a matrix of the hex RGB values 

makePalette < -function(coll, col2, lum1, lum2, m,n, ...... ) 4 
C< -matrix(data=NA,ncol=m,nrow=n) 

alpha<-seq (0, 1, length.out=m) 

##for each luminosity level(rows) 

lum<-seq(lum1, lum2, length.out=n) 

for(iin1: n) { 

cl1<-LAB(lum[i], coords(col1) [2], coords(col1) [3]) 
c2<-LAB(lum[i], coords(col2) [2], coords(col2) [3]) 
##for each mixture level(columns) 

for in1: m) { 

c<-mixcolor(alpha[j], c1, c2) 

hexc < -hex(c,fixup=TRUE) 

C[i,j] < -hexc 

} 

} 

return(C) 

} 

##plot a vector or matrix of RGB colors 
plotPalette<-function(C, ...... ) { 

if (! is.matrix(C) ) { 

n<-l 

C<-t(matrix(data=C) ) 

yelse{ 

n<-dim(C) [1] 

} 


plot (0, 0, type="n", xlim=c (0, 1) , ylim=c (0, n) , axes=FALSE, 


mar=c (0, 0, 0, 0) , ...... ) 

##helper function for plotting rectangles 

plotRectangle < -function(col,ybot=0, ytop=1, border="light gray") { 
n<-length(col) 


发 实现 


rect (0: (n-1) /nybot, 1: n/n,ytop,col=col,border=border,mar=c (0, 0, 0, 0) ) 
} 

for(i in 1: n) { 

plotRectangle(C[i, ], ybot=i-1, ytop=i) 

} 

} 

##Let's put it all together. 

##We make two colors in the LAB space,and then plot a 2D palette 

##going from 60 to 25 luminosity values. 

library(colorspace) 

lightRed<-LAB (50, 48, 48) 

lightBlue<-LAB (50, -48, -48) 

C <-makePalette(col1=lightBlue,col2=lightRed,lum1=60, lum2=25, m=7, n=7) 
plotPalette(C,xlab='speed', ylab='density' 


结束 语 


正如 本 章 给 出 的 例子 所 展示 的 ， 色 彩 (如果 可 以 慎重 、 负 责 地 使 
用 ) 在 对 高 维度 数据 进行 可 视 化 时 可 以 作为 一 个 非常 宝贵 的 工具 被 使 
用 。 其 最 终 产 品 一 一 对 2008 年 赛季 的 所 有 数据 的 五 维 投掷 图 一 一 可 以 
通过 由 PitchFX Django 驱 动 的 Web 工 具 ， 在 Dataspora 实 验 室 进行 深入 探 











索 ( (htp: //labs.dataspora.com/gameday/) ° 
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Bom ”信息 映射 : 重新 设计 纽约 地 铁 图 Eddie 
Jabbour(Julie Steele 执 笔 ) 





地 图 是 已 有 的 最 基本 的 数据 可 视 化 中 的 一 种 ， 我 们 已 经 有 几 千 年 
的 地 图 制作 历史 。 然 而 ， 我 们 并 没有 把 地 图 作为 理解 复杂 系统 的 一 种 
工具 并 加 以 完善 一 拥有 26 条 地 铁 线 、468 个 站 点 并 覆盖 了 5 个 市 区 的 
纽约 地 铁 系 统 ， 毋 良 置 疑 是 相当 复杂 的 。KickMap 是 我 为 了 设计 一 种 更 
为 有 效 的 地 铁 图 所 做 的 探索 的 成 果 ， 其 最 终 的 目标 是 增加 乘坐 地 铁 的 
AK ° 





需要 更 好 的 工具 





我 出 生 在 纽约 的 皇后 区 ( (Qeens)， 在 布鲁克 林 区 ( (Booklyn) 长 

大 。 我 看 到 的 第 一 张 地 铁 图 是 我 父亲 的 ， 时 间 大 约 在 1960 年 。 它 给 我 
留 下 了 深刻 的 印象 ， 因 为 它 当 时 吓 到 了 我 。 通 过 该 地 铁 图 ， 我 看 到 的 
是 一 个 灰色 的 纽约 ， 红 色 、 绿 色 和 黑色 线条 纵横 交错 ， 看 起 来 像 一 个 
网 格 ， 如 图 5-1 所 示 ， 而 且 地 图 上 面 还 有 数 以 百 计 的 站 点 名 字 1。 它 让 
我 想起 了 一 张 目 己 无 法 理解 的 复杂 无 比 的 电路 图 ; 它 看 上 去 市 大 

股 “ 成 年 人 的 肃穆 "， 甚 至 有 点 恐怖 。 我 希望 和 目 己 永 远 都 不 要 和 它 打 区 
道 。 
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图 5-1: George Salomon 设 计 的 1958 版 的 纽约 地 铁 图 (1958 版 纽约 
HERA 。MTA 纽 约 城市 运输 图 。 已 授权 使 用 ， 见 彩 图 24) 


[1] : 我 现在 知道 该 地 图 是 Salomon 设 计 的 地 图 的 早期 版 本 。 多 年 以 
Fi 当 我 为 创作 KickMap 调 研 时 ， 我 应 该 感谢 这 张 地 图 体现 的 设计 之 


回忆 在 伦 致 





在 伦敦 ， 我 的 专业 是 设计 学 ， 花 了 半年 时 间 在 伦敦 大 学 学 习 。 在 

个 目 己 从 未 去 过 的 大 城市 里 ， 一 切 都 得 乔 目 己 。 我 很 快 了 解 到 伦敦 
地 铁 是 该 城市 的 主要 交通 方式 ， 而 “地 铁 图 ”( (Tbe map) 是 弄 清 楚 出 行 
路 线 的 关键 。 该 地 铁 图 ( 即 图 5-2 所 示 的 著名 的 Beck 地 铁 图 ) 非常 友 
好 : 简单 、 明 亮 、 色 彩 绚丽 ， 其 设计 目标 在 于 帮助 用 户 理解 线路 之 间 
的 连 所 关系， 而 且 它 非 第 小 巧 。 折 对 起 来 后 ， 可 以 很 方便 地 塞 到 口袋 
里 ， 当 需要 参考 查看 时 ， 可 以 随时 随地 地 打开 使 用 (我 经 常 这 么 
做 ) 。 








图 5-2: Harry Beck 的 伦敦 地 铁 图 ， 它 使 得 一 个 复杂 的 系统 看 起 来 简 
单 优雅 (1933 版 伦敦 地 铁 图 。 伦 敦 交 通 博 物 馆 收 藏 。 已 授权 使 用 ， 见 
彩 图 25) 





伦敦 是 一 座 中 世纪 的 城市 ， 因 此 其 街道 布局 是 随机 的 。 罕 过 区 曲 
的 十 字 路 口 ， 你 所 在 的 街道 的 名 称 束 变 了 。 它 没有 一 个 带 有 编号 的 网 
格 来 作为 参照 〈 像 纽约 那样 ) ， 在 这 个 城市 中 行走 很 容易 迷失 方向 。 
Beck 地 图 的 天 才 之 处 在 于 它 摆脱 了 随机 复杂 性 ， 以 泰 旺 士 河 作为 地 上 
可 视 化 (和 地 理 ) 的 唯一 参考 点 。 基 于 这 个 原因 ， 地 图 的 布局 是 标志 
性 的 ， 当 你 想到 伦敦 ， 你 很 可 能 会 想到 地 铁 图 。 但 是 即使 像 我 这 样 一 








个 设计 专业 学 学 生 ， 在 那 时 也 并 没有 对 该 地 图 的 形式 风格 做 进一步 轧 
考 一 一 它 使 用 起 来 是 如 此 简单 方便 ， 让 人 感觉 出 门 旅行 毫 不 费 工 夫 。 





有 了 这 张 小 而 有 效 的 地 图 ， 以 及 “ 想 去 哪 束 去 哪 *、 可 以 无 限 次 使 
用 的 地 铁 月 卡 ， 我 每 天 都 可 以 乘 地 铁 在 伦敦 穿梭 。 我 轻松 自在 地 去 任 
何 地 方 ， 充 分 利用 伦 致 这 座 伟 大 的 城市 中 的 资源 。 伦 致 地 铁 图 如 此 快 
速 、 清 晰 地 传递 信息 ， 成 为 我 的 经 历 中 不 可 分 割 的 工具 和 组 成 部 分 。 
它 使 得 我 在 伦敦 仅仅 生活 了 几 周 之 后 ， 就 有 这 样 的 感觉 : 伦敦 是 “我 
的 ”。 多 么 奇妙 、 强 大 的 感觉 ! 








事实 上 ， 我 对 这 个 至 贯 的 工具 如 此 "依恋 ”， 在 我 逗留 的 最 后 时 
期 ， 即 离开 这 座 城市 之 前 ， 我 去 当地 的 地 铁 站 天 了 一 张 新 的 地 铁 图 ， 
并 在 我 回 到 纽约 后 把 它 猴 楼 了 起 来 。 


ZA ZZ aH” 


当 你 离开 6 个 月 重新 加 到 家 乡 时 ， 你 会 用 新 的 眼光 看 待 一 切 。 当 我 
回 到 纽约 时 ， 看 到 了 纽约 地 铁 图 一 一 真正 地 看 到 它 一 一 从 我 长 大 至 今 
第 一 次 看 到 它 。 我 暗 目 思量 ， 和 伦敦 的 相 比 ， 纽 约 地 铁 图 的 设计 很 精 


记得 当时 我 对 于 纽约 地 铁 图 的 看 法 刚好 钙 Beck 地 图 的 反面 ， 尺寸 
太 大 ， 看 起 来 洒 乱 无 草 ， 而 且 非 常 不 直观 。 我 意识 到 这 张 地 图 在 很 多 
方面 成 为 了 使 用 我 们 伟大 的 纽约 地 铁 系统 的 障碍 ， 这 和 伦敦 地 铁 图 刚 
好 相反 。 伦 敦 地 铁 图 的 简单 性 是 理解 和 使 用 伦敦 地 铁 的 “ 金 钥 匙 ”。 


然而 ， 即 使 是 作为 一 名 设计 师 ， 即 使 曾 在 一 念 之 间 想 要 创建 自己 
的 地 铁 图 ， 我 肯定 也 很 快 地 打消 了 这 个 念 涉 。 当 时 是 在 20 世 纪 70 年 
代 ， 我 不 是 那 种 拿 厦 丁字 尺 的 建筑 师 。 对 于 任何 非 经 验 丰 富 的 制图 员 
来 说 ， 在 那个 没有 计算 机 的 年 代 ， 承 担 这 种 任务 需要 经 过 的 训练 和 付 
出 的 时 间 都 是 不 可 想象 的 。 


在 我 的 设计 生涯 中 ， 纽 约 地 铁 图 的 不 足 一 直 往 留 在 我 脑海 里 。 和 
绝 大 多 数 纽约 人 人 一样， 我 很 少 使 用 地 铁 图 ， 也 从 来 不 带 它 。 其 部 分 原 
因 是 它 太 大 了 : 和 一 个 用 做 插页 的 公路 线路 图 一 样 大 。 万 一 我 需要 借 
助 该 地 铁 图 的 一 些 信息 去 某 个 新 的 地 方 ， 我 会 从 车 站 的 免费 地 铁 图 中 


撕 出 一 块 六 英寸 大 小 的 方形 多， 然后 把 剩余 部 分 扔 到 垃圾 箱 中 ! 我 经 
党 看 到 一 些 旅客 很 茸 吾 地 携 冲 着 这 张 庞大 的 地 铁 儿 ， 并 很 为 他 们 感到 
难过 ， 这 也 使 我 回想 起 了 目 己 学 生 时 代 在 伦敦 的 美好 经 历 。 


好 的 工具 衍生 更 好 的 工具 


现在 ,“ 快 进 ” 到 多 年 后 的 某 个 晚上 ， 我 带 一 个 外 地 客户 在 市 中 心 
的 一 家 餐馆 吃饭 。 在 我 们 等 候 地 铁 时 ， 他 私下 告诉 我 纽约 地 铁 “I 下 
坏 ” 了 他 。 我 很 惊讶 : 20 世纪 70 年 代 到 90 年 代 的 犯罪 现在 已 经 从 地 铁 系 
统 消 失 了 ， 我 还 对 我 们 胃 新 的 空调 车 和 清 涪 的 地 铁 站 感到 目 罕 。 但 
征 ， 随 着 我 们 沿 着 市 中 心 的 路 进行 交谈 ， 我 意识 到 他 的 娩 惧 在 于 不 能 
理解 系统 的 复杂 性 : 所 有 的 线路 和 连接 。 那 个 时 候 ， 我 意识 到 他 的 问 
题 也 是 由 于 该 地 铁 图 设计 得 不 够 友好 的 缘故 。 这 位 客户 经 党 旅行 而 且 
文 质 彬 彬 ; 如 果 他 认为 纽约 地 铁 系 统 很 吓人 ， 那 真正 的 原因 是 该 系统 
的 地 铁 图 在 交流 上 存在 问题 。 

















在 那个 时 刻 ， 这 张 地 铁 图 重新 潜入 我 的 意识 中 ， 束 再 也 没有 离 
F e 


那 生 2002 年 ， 我 有 了 目 己 的 设计 机 构 和 员工 ， 我 们 每 个 人 的 电脑 
里 都 安装 了 当时 最 伟大 、 节 优雅 的 图 形 设计 工具 。 我 意识 到 在 现在 这 
个 时 期 ， 使 用 像 Adobe Illustrator 这 样 的 图 形 设计 程序 ， 只 需要 一 个 人 
就 可 以 创建 属于 他 目 己 的 地 铁 图 ! 于 是 ， 我 挑战 目 己 重新 设计 纽约 地 
FRA 








尺寸 只 是 一 个 因 系 


当 我 决定 利用 周末 试 着 动手 做 一 个 新 的 地 铁 图 时 ， 我 考虑 的 第 一 
个 问题 束 是 尺寸 。 因 为 纽约 地 铁 系 统 的 站 点 数 儿 乎 是 伦 致 的 两 倍 ， 我 
决定 采用 两 倍 的 伦敦 地 铁 图 的 大 小 空间 来 制作 纽约 地 铁 图 。 (即使 把 
伦敦 地 铁 图 的 大 小 加 倍 ， 结 采 也 只 不 过 是 现 有 纽约 地 铁 几 天 小 的 五 分 
a=) 





首先 ， 我 采用 官方 的 城市 交通 管理 局 ( (Mtropolitan Transit 

AuthorityMTA) 的 纸 质 地 图 ， 如 图 5-3 所 示 ， 用 剪刀 裁剪 ， 然 后 以 更 有 效 
的 方式 重新 粘贴 起 来 〈 一 块 块 地 用 透明 胶带 粘 起 来 ) ， 只 是 为 了 看 看 
会 产生 什么 效 末 。 当 我 成 功 地 裁 挥 原来 地 铁 岁 的 一 半 大 小 时 ， 我 觉得 
很 受 辟 拍 。56 个 巴士 的 弹出 框 和 其 他 非 地 铁 信息 都 消失 了 ! 然后 是 创 
建 一 张 实际 的 地 铁 图 这 项 繁重 的 工作 。 我 把 所 有 的 地 铁 站 名 字 和 线路 
都 输入 到 Ilustrator 的 文档 工具 中 。 两 个 月 之 后 ， 瞧 ! 我 有 了 一 张 目 己 
的 、 小 得 多 的 地 图 ! 我 把 地 图 折 爱 起 来 ， 很 轻松 地 把 它 放 到 钱包 里 ， 
带 着 它 ， 并 展示 给 所 有 的 朋友 。 他 们 对 大 小 很 满意 ， 但 是 没有 人 真正 
愿意 使 用 它 ， 因 为 它 还 存在 很 多 设计 上 的 问题 ， 使 得 它 难以 使 用 。 
































图 5-3: MTA 纽 约 城市 地 铁 图 的 2004 版 ， 基 于 Michael Hertz 的 设计 。 
除了 其 视觉 上 的 复杂 性 ， 地 铁 图 本 身 缺 失 的 、 不 完整 的 信息 使 得 用 户 
不 得 不 依赖 于 右 下 角 复 杂 的 图 形 说 明 〈 而 在 地 铁 里 ， 坐 在 座位 上 的 人 
们 刚好 挡住 了 这 些 信息 ) 。 但 是 ， 在 地 铁 站 ， 该 信息 展示 在 大 海报 





上 ， 也 难以 阅读 ， 因 为 它 离 地 面 的 高 度 往往 小 于 18 英 寸 《纽约 城市 地 
铁 图 。 城 市 交通 管理 局 收藏 。 已 授权 使 用 ， 见 彩 图 26) 








减少 地 图 的 尺寸 是 一 回 事 ， 而 意识 到 展现 数据 的 方式 不 是 最 佳 方 
式 束 是 另 一 回 事 了 “。 因 此 我 目 付 目 辣 : 我 该 如 何 展现 所 有 这 些 数据 ? 





为 了 回答 这 个 问题 ， 我 需要 提出 更 多 的 问题 : 


在 这 张 地 图 出 现 之 前 ， 部 十 些 什么 样 的 地 图 ? 








' 征 否 存在 之 前 已 废弃 而 可 能 还 具有 一 些 相关 信息 的 想法 ? 


:以 前 难以 清晰 、 高 效 地 描述 纽约 地 铁 图 的 原因 是 什么 呢 ? 


MEERE 
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街道 图 ， 以 及 在 旅途 中 收集 到 的 全 世界 各 地 的 地 铁 图 和 交通 图 。 我 对 
所 有 的 设计 方案 进行 筛 计 ,采取 了 一 种 折 训 方案 ， 从 已 经 实现 的 思想 

(有 些 非常 精彩 ) 中 汲取 尽 可 能 多 的 想法 。 


HIR, BR I George Salomon 设 计 的 地 铁 图 ， 即 我 父亲 使 用 的 那 张 地 
铁 图 ， 我 还 仔细 研究 了 Massimo Vignelli 设 计 的 地 铁 图 ( 见 图 5-4) ， 
MTA 从 1972 年 到 1979 年 一 直 使 用 该 地 铁 图 ， 而 后 来 被 Tauranac-Hertz 
MTA 地 铁 图 取代 (30 年 后 ， 该 地 铁 图 依然 很 盛行 ，。Vignelli 的 地 铁 图 
立刻 吸引 了 我 ， 因 为 它 虽 然 尺 十 很 大 ， 却 显然 受到 Beck 的 伦敦 地 铁 图 
的 启发 ， 包 括 90" 和 45。 的 角度 ， 清 晰 的 站 点 连接 ， 以 及 使 用 色彩 来 表示 
各 条 线路 。 我 想 要 保留 当前 MTA 地 图 的 一 些 精 髓 ,但 是 总 体 上 感觉 它 
还 是 很 笨拙 ， 因 为 该 地 铁 图 充 不 了 太 多 的 信息 。 此 外 ， 我 还 挖掘 了 一 
些 已 被 废弃 或 被 遗忘 的 过 去 所 做 的 努力 。 








图 5-4: Massimo Vignelli 设 计 的 1972 版 MTA 纽 约 市 地 铁 图 。 该 风格 在 
地 理 上 扭曲 得 很 混乱 ， 但 是 它 是 设计 上 的 一 个 为 人 称道 的 里 程 碑 


(1972 版 纽约 市 地 铁 图 。MTA 纽 约 市 地 铁 收藏 ， 已 授权 使 用 ， 见 彩 图 
27) 


纽约 独特 的 复杂 性 


深入 研究 之 后 ， 我 开始 意识 到 正如 其 他 城市 如 伦敦 、 巴 歼 、 东 忒 
一 样 ， 纽 约 面临 它 目 己 独特 的 挑战 ， 使 得 其 地 铁 系 统 无 法 使 用 图 表 方 
式 来 准确 、 清 晰 地 捅 绘 。 很 显然 ， 使 用 纯粹 的 地 形 图 测绘 方法 也 是 行 
不 通 的 ;纽约 独特 的 地 理 特征 及 其 网 格 状 街道 系统 对 其 地 铁 系 统 的 给 
图 都 产生 了 影响 。 








纽约 市 地 铁 系统 存在 4 个 显著 而 相互 矛盾 的 方面 ， 它 使 得 用 严格 的 
图 表 或 地 形 测绘 来 成 功 地 进行 绘图 是 不 可 能 的 。 








:曼哈顿 岛 主 干道 的 狭 罕 的 地 理 特征 ， 包 售 17 条 独立 的 地 铁 线路 ， 
沿 痢 路 6 个 市 区 的 市 中 心 同 上 和 回 下 蚁 虹 。 


:采用 “ 明 挖 法 ”( (ct and coven) 构 建 地 铁 隧 道 和 高 架 线 ， 以 符合 城 
市 网 格 状 的 街道 布局 。 因 为 纽约 地 铁通 常 是 沿 着 网 格 状 的 街道 路 线 ， 
地 铁 和 地 面 地 形 之 间 存 在 很 强 的 心理 链接 ， 这 在 像 伦 敦 这 样 的 中 世纪 
城市 是 不 存在 的 。 


许多 地 铁 沿 着 当地 、 然 后 快车 、 然 后 再 当地 的 线路 运行 ， 这 有 是 该 
系统 的 独特 之 处 。 


:基于 历史 原因 ， 当 前 系统 源 于 三 大 独立 而 又 相互 竞争 的 地 铁 系 统 
机 构 (【(IT、BMT 和 IND 趾 ) ， 它 们 整体 上 相互 协调 得 不 好 。 (SK 
和 争 机构 之 间 对 线路 的 纠 强 ， 从 曼哈顿 繁华 的 街道 到 布鲁克 林 以 及 长 
岛 ， 是 对 该 系统 进行 清晰 、 准 确 地 制图 时 所 面临 的 最 困难 的 部 分 。) 





图 5-5 所 示 的 KickMap 是 基于 我 对 很 多 早期 地 铁 图 的 选择 和 目 己 的 
思想 创新 的 综合 。 我 相信 这 种 独特 的 综合 会 使 得 我 设计 的 地 铁 图 比 先 
前 绝 大 部 分 地 铁 图 更 易于 使 用 。 在 接 下 来 的 内 容 中 ， 我 将 更 详尽 地 探 
讨 在 设计 地 铁 图 时 受到 的 一 些 局 发 和 创意 。 





[1] IRT(Interborough Rapid Transit) ` BMT(Brooklyn-Manhattan Transit) 
和 IND(Independent Subway) 是 20 世 纪 40 年 代 三 大 地 铁 运 输 机 构 ， 如 果 
你 想 了 解 更 多 ， 请 访问 http: //www.nycsubway.org/fag/briefhist.html ° 
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纽约 的 大 部 分 行政 区 〈 量 后 区 、 布鲁克 林 区 、 曼 哈 顿 区 ， 以 及 某 
种 程度 上 的 布朗 克 斯 区 ) 都 已 经 由 于 城市 街道 的 规划 方式 已 经 在 地 铁 
系统 上 存在 网 格 。 这 使 得 地 面 上 的 地 理 不 仅仅 是 一 个 直观 的 起 始点 ， 
而 且 也 是 用 户 体 验 的 一 个 组 成 部 分 。 了 解 你 的 地 理 位 置 (以 第 42 街 道 
和 第 七 大 道 为 例 ) 把 你 置 于 网 格 中 ， 使 你 易于 判断 距离 和 位 置 。 这 使 
得 在 纽约 地 铁 图 中 出 现 的 很 多 地 理 错误 (一 个 臭名 昭著 的 例子 是 
Vignelli 地 铁 图 把 第 50 街 道 和 百老汇 地 铁 站 放 在 第 八大 道 的 西部 ， 而 不 
是 放 在 东部 ) 非常 明显 且 易 于 发 现 。 
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图 5-5: 2007 年 新 版 的 KickMap 地 铁 图 


对 于 纽约 地 铁 图 的 一 些 早期 版 本 ， 很 难 相信 那些 设计 者 曾经 作为 
日 名 的 城市 生活 真正 地 乘坐 过 地 铁 。 他 们 做 出 的 很 多 决策 和 地 铁 的 现 
实情 况 脱 节 。 作 为 设计 过 程 的 一 部 分 ， 我 乘坐 地 铁 ， 去 每 个 我 不 熟悉 
ERER” 
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铁 乘 客 离开 地 铁 时 ， 他 们 还 需要 继续 旅途 ， 因 此 地 铁 图 尽 可 能 清晰 地 
表达 出 这 种 关系 是 很 重要 的 。 否 则 ， 会 导致 乘客 产生 迷失 方 同 的 不 舒 
适 之 感 。 
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弯 。 但 是 当 你 从 格雷 厄 姆 大 街 的 地 铁 站 出 口 离 开 地 铁 时 ， 很 显然 
Metropolitan 大 道 和 Bushwick 大 道 是 相交 的 两 条 主干 道 。 为 什么 这 一 点 
没有 在 地 铁 图 上 显示 ? 如 有 果 你 不 知道 街道 是 如 何 交 又， 而 且 从 地 铁 出 
来 后 只 看 到 某 个 标识 ， 你 将 很 难 弄 清楚 究竟 发 生 了 什么 事情 。 








在 Vignelli 地 铁 岁 上 ， 这 部 分 的 L 地 铁 线 被 描绘 成 一 条 直线 ， 如 图 5- 
6a 所 示 。Hertz 地 铁 图 ( 见 图 5-6c) 显示 了 Metropolitan 和 Bushwick 大 
E, (Ae Re R TE at TR, BRERA Re I 
的 面条 。 我 采用 的 是 仔细 地 摘 绘 一 条 固定 格式 、 准 确 的 地 铁 线 ， 标 明 





了 沿途 经 过 的 每 条 主 大 道 ， 相 信 这 有 是 最 佳 方式 ， 因 为 它 对 于 乘客 是 最 


有 帮助 的 ， 如 图 5-6b 所 示 。 





图 5-6: 布鲁克 林 的 地 铁 工 号 线路 的 一 部 分 : a) Vignelli 地 铁 图 ，b) 
KickMap 地 铁 图 ，c) Tauranac-Hertz 地 铁 图 ( 见 彩 图 29) 


相反 ， 为 了 帮助 乘客 理解 ， 我 在 制作 地 铁 图 时 ， 有 时 对 地 理 地 形 
风格 上 做 了 一 些 简化 。 举 个 例子 ， 皇 后 区 的 主干 道 是 皇后 大 道 ( (Qeens 
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后 大 桥 东 部 穿 过 。 近 期 的 地 铁 图 并 没有 贴切 地 捕获 旺 后 大 道 和 地 铁 的 
关系 ， 这 些 地 铁 图 或 者 完全 忽略 了 它 (如 图 5-7a 所 示 的 Vignelli 地 铁 
图 ) 或 者 掩盖 了 它 (如 图 5-7c 所 示 的 当前 的 MTA 地 铁 图 ) 。 在 我 制作 
的 地 铁 图 上 ， 我 把 皇后 大 道 作 为 直线 ， 如 图 5-7b 所 示 。 我 这 么 做 的 原因 
是 用 户 可 以 很 容易 理解 路 线 ， 而 沿线 旅途 中 可 以 明白 我 所 做 出 的 这 
种 “ 折 训 ”的 意义 一 一 沿 着 一 条 地 铁 线路 乘坐， 然后 换 乘 转 到 男 一 条 地 
铁 。 在 这 种 情况 下 ，7 条 地 铁 沿 着 皇后 大 道 运行 ， 直 到 在 罗斯 福 大 道 转 
向 离开 ， 地 铁 R/V/G/E/F 号 线路 一 直通 向 百老汇 ， 然 后 在 东部 折 回 到 原 
有 路 线 。 我 所 采取 的 展现 风格 可 以 使 用 逻辑 来 更 好 地 表达 地 铁 和 旺 后 
大 道 的 关系 ， 而 在 Vignelli 地 铁 图 和 当前 的 MTA 地 铁 图 上 上， 这些 关系 都 
不 是 很 明显 。 























图 5-7: 沿 着 皇后 大 道 的 地 铁 线路 在 制图 上 的 折衷 : a) Vignelli 地 铁 
图 ，b) KickMap 地 铁 图 ，c) 当前 MTA 地 铁 图 ( 见 彩 图 30) 
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中 4/5/6 线 从 帕克 大 道 蔓延 到 列 克 星 敦 大 道 ， 如 图 5-8 所 示 。 治 
着 曼哈顿 的 中 城 或 者 默 里 山 广场 步行 的 旅客 需要 知道 应 该 去 哪个 街道 
才 有 地 铁 入 口 。Vignelli 地 铁 图 把 它 作为 直线 ， 掩 盖 了 其 中 的 变换 ， 它 
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依赖 文本 来 表达 道路 变换 信息 ， 而 当前 的 MIA 地 铁 图 充其量 只 是 表意 
很 不 清晰 ， 而 且 看 起 来 较 乱 。 而 在 我 所 设计 的 地 铁 图 中 ， 用 户 应 该 去 
哪里 是 很 清晰 的 。 





图 5-8: 曼哈顿 的 地 铁 4/5/6 号 线 : a) Vignelli 地 铁 图 ，b) KickMap 地 


R, © 当前 的 MTA 地 铁 图 ( 见 彩 图 31) 
[1] 中 城 ( (Mdtown)， 是 美国 曼哈顿 的 中 心 区 ， 指 的 是 从 曼哈顿 的 14 街 
以 北 到 59 街 为 止 。 
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虽然 在 地 铁 图 上 显示 地 面 上 的 一 些 地 形 很 重要 ， 但 我 觉得 显示 时 
去 除 挥 一 些 地 下 信息 也 是 很 重要 的 。 在 地 铁 系 统 中 ， 有 些 地 铁 站 位 于 
地 铁 隧道 的 交 义 点 和 重合 点 。 显 示 这 些 交 互信 息 ， 对 于 那些 试 着 做 某 
些 修 补 的 城市 工人 或 者 公共 事业 公司 来 说 可 能 是 很 重要 ， 但 是 作为 普 
通 的 乘 洛 ， 它 们 只 会 市 来 视觉 干扰 。 我 试 着 通过 在 地 铁 图 上 清晰 地 对 
这 些 线路 进行 分 离 ， 使 得 这 些 线路 不 会 重合 ， 从 而 减少 干扰 。 以 布 明 
殉 斯 的 地 铁 4 号 线 和 地 铁 5 号 线 的 不 同 接 述 为 例 ;， 当 然 ，MTA 的 路 径 描 

可 能 是 准确 的 ， 但 是 它们 在 显示 上 很 混乱 ， 乘 客 不 需要 真正 地 看 到 
那些 具体 细 广 来 理解 他 们 要 去 哪里 。 








对 地 铁 线 着 色 


地 下 的 地 理 地 形 特征 很 重要 ， 但 十 使 用 户 能 够 理解 应 该 坐 哪 一 条 
地 铁 线 去 某 个 地 方 是 更 重要 的 。 


1967 年 ，MTA 改 变 了 之 前 所 采用 的 和 Salomon 和 先前 的 地 铁 图 一 样 
的 三 色 地 图 ， 开 始 使 用 不 同 的 颜色 来 表示 不 同 的 地 铁 线 。 然 而 ， 这 种 
改变 对 于 简化 系统 没有 什么 帮助 。 本 质 上 ，MTA 地 铁 图 还 是 包含 26 条 
线路 ， 每 条 线路 使 用 随机 不 同 的 颜色 ， 使 用 一 种 颜色 表示 一 条 线路 这 
种 方法 除了 能 够 表示 给 定 线路 的 连续 性 以 外 ， 并 没有 真正 地 给 用 户 提 
供 任何 信息 。Vignelli 地 铁 图 〈 见 图 5-10c) 继续 使 用 这 种 颜色 表示 体 
系 。 





Bl 5-9: 地 铁 4 号 线 和 地 铁 5 号 线 : a) KickMap 地 铁 图 ，b) 当前 的 
MTA 地 铁 图 ( 见 彩 图 32) 


Tauranac-Hertz ( 即 当 前 的 MTA) 地 铁 图 试 着 把 多 条 地 铁 线 重 倒 成 一 
条 线 来 简化 系统 表示 ， 但 实际 上 它 使 得 乘客 需要 对 地 铁 系统 的 理解 变 
得 更 加 复杂 ， 正 如 现在 你 需要 看 每 个 地 铁 站 标注 的 文本 才能 知道 某 条 
地 铁 线 是 否 在 某 个 站 点 停 下 如 图 5-10a 所 示 。 





Tauranac-Hertz 地 铁 图 的 正确 之 处 在 于 它 对 使 用 相同 地 铁轨 道 的 一 
组 地 铁 线 进行 颜色 编码 。 举 个 例子 ， 地 铁 A/C/E 号 线路 全 部 都 是 监 色 显 
示 的 ， 而 地 铁 4/5/6 号 线路 全 部 都 是 绿色 显示 的 。 如 果 你 查看 从 曼哈顿 
北部 到 南部 的 所 有 “主干 ”线路 ， 闫 色 变 换 从 蓝 色 到 红色 、 柳 色 、 黄 


色 、 绿 色 ， 产 生 一 种 光谱 效应 。 这 些 颜色 易于 记忆 ， 而 且 帮 助 乘客 辩 
别 哪 一 条 地 铁 线 将 会 带 他 们 去 想 要 去 的 地 方 。 
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图 5-10: 曼哈顿 “主干 道 "，a) 当前 的 MTA 地 铁 图 ，b) KickMap 地 铁 
图 ，c) Vignelli 地 铁 图 ( 见 彩 图 33) 


在 我 设计 的 地 铁 图 中 ， 我 保留 了 这 两 种 方法 的 最 佳 方面 ， 如 图 5- 
10b 所 示 。 我 在 地 铁 图 的 主干 线 上 使 用 了 光谱 色彩 ， 突 出 Tauranac-Hertz 
地 铁 图 系统 内 在 的 优雅 和 真实 性 ， 但 是 通过 使 用 自己 描绘 的 地 铁 线 来 
表示 每 条 线路 可 以 使 地 铁 图 保持 清晰 。 从 技术 上 来 说 ， 我 的 做 法 和 
Vignelli 地 铁 图 没有 区 别 ， 使 用 26 种 不 同 的 颜色 ， 但 是 我 把 这 些 颜 色 分 
成 6 到 7 组 颜色 系 ， 使 用 深浅 不 同 的 色调 来 表示 一 个 给 定 颜色 系 中 的 每 
一 条 线 ， 如 A/C/E 号 线路 使 用 蓝 色 色调 表示 ，4/5/6 号 线路 使 用 绿色 色调 


表示 等 。 


我 还 利用 了 地 铁 线路 ID 和 颜色 来 表示 地 铁 站 点 o ENER 
法 是 地 铁 图 应 该 能 够 易于 扩展 ， 而 不 只 是 满足 乘客 的 可 读 性 。 在 一 条 
地 铁 线 上 停 下 的 每 个 站 点 ， 我 把 该 地 铁 站 的 名 字 放 在 圆 点 内 。 通 过 这 
种 方式 ， 用 户 可 以 很 容易 准确 地 看 到 哪个 地 铁 在 哪个 站 点 停 下 ， 而 不 
需要 去 查看 每 个 站 点 名 字 的 地 铁 线 列表 。 使 用 不 同 的 着 色 点 能 够 使 读 
者 一 目 了 然 看 清 该 地 铁 是 否 总 是 停止 在 某 处 或 者 有 特定 条 件 ， 比 如 工 
作 日 /周末 或 高 峰 时 期 / 非 高 峰 时 期 的 限制 。 




















最 后 ， 纽 约 大 约 有 80 个 地 铁 站 点 ， 如 果 你 错过 了 某 个 站 点 ， 你 不 
能 仅仅 只 是 出 站 ， 再 方便 地 切换 地 铁 方 向 。 我 通过 在 地 铁 名 字 旁 边 放 
一 个 小 的 红色 方块 来 突出 地 理 位 置 ， 表 示 那 些 需要 转向 换 乘 的 乘客 ， 
他 们 不 想 离开 地 铁 站 ， 罕 过 街道 ， 在 街道 男 一 面 重新 进入 站 点 。 当 前 
的 MTA 地 图 显示 了 纽约 的 所 有 直升机 机 场 ， 但 是 没有 给 乘客 提供 上 面 
这 个 简单 且 重 要 的 地 铁 信息 一 一 这 样 的 优先 显示 很 是 让 人 困惑 。 





我 相信 ， 忌 体 说 来 ， 这 些 决 全 突出 了 使 KickMap 地 铁 图 比 它 之 前 的 
那些 地 铁 图 更 有 用 的 创新 点 。 


: 这 是 我 在 设计 地 铁 图 中 的 一 个 突 发 灵 
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这 些 决 定 对 我 来 说 很 容易 ， 但 是 其 他 选择 则 更 困难 。 但 是 我 真正 
需要 保留 哪些 地 理 特征 ? 我 应 该 使 用 哪些 角度 ? 我 应 该 包含 多 少 公 共 
汽车 和 轮流 信息 ? 


因此 ， 在 创建 完满 足 我 初始 目标 的 构思 后 (如 图 5-5 所 示 ) ， 我 决 
定 完善 目 己 设计 的 地 铁 图 ， 并 体现 了 目 己 学 到 的 所 有 知识 点 。 我 感到 
很 兴奋 。 
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Al 5-11: 我 设计 的 测试 版 地 铁 图 ; 我 放 了 很 多 信息 在 该 版 本 地 铁 图 
中 ， 然 后 再 修改 它 ( 见 彩 图 34) 


在 汽车 行业 ， 构 建 所 谓 的 “测试 又 子 ”( (tst mule) 是 很 常见 的 ， 它 
古 模 型 或 者 试验 性 生产 的 汽车 ， 塞 满 了 每 个 可 能 的 实验 性 特征 ， 该 模 
型 经 历 了 一 些 列 的 驱动 测试 来 确定 应 该 删除 哪些 特征 (因为 它 不 是 基 
础 必须 特征 或 者 工作 不 太 理想 ) 。 我 对 自己 设计 的 地 图 使 用 了 相同 
的 “测试 又 子 ? 策 略 : 我 目 先 创建 了 一 个 版 本 ， 如 图 5-11 所 示 ， 把 我 可 
能 想 要 的 所 有 特征 都 放 到 该 版 本 中 。Photoshop 的 Ilustrator 制 图 工具 的 
图 层 特征 在 这 里 非常 有 用 ; 我 在 这 张 地 图 中 放置 的 很 多 东西 最 终 都 被 
删 掉 或 修改 。 








测试 版 地 铁 图 允许 我 们 评价 很 多 不 同 的 折 训 方案， 比如: 


街道 网 格 


我 想 要 在 地 铁 图 中 显示 街道 的 结构 ， 而 不 干扰 其 他 地 铁 信息 。 你 
将 注意 到 测试 版 地 铁 图 比 最 终 版 的 设计 包含 的 街道 和 街道 名 字 要 多 得 


多 。 





海滩 


我 觉得 一 片 绿色 天 地 对 于 人 们 有 是 重要 的 ， 纽 约 人 应 该 能 够 乘坐 地 
铁 去 海滩 ， 而 不 是 开车 。 我 的 测试 版 地 铁 图 还 包含 纽约 市 的 游泳 池 ， 


但 是 我 最 终 决 定 删除 它们 © 


海岸 线 特征 


很 重要 的 是 ， 真 正 的 用 户 (比如 ， 我 妈妈 ) 能 够 很 容易 地 使 用 该 
地 铁 图 ， 她 一 点 都 不 在 乎 我 在 测试 版 地 铁 图 中 特定 的 地 理 详 细 信 息 
(比如 Steinway 小 溪 或 wallabout 海 湾 ) 。 这 是 对 地 铁 图 进行 简化 和 风 
格 化 的 一 个 原因 。 但 是 我 还 希望 能 够 有 一 些 好 的 方面 ， 使 得 任何 一 个 
地 铁 图 “ 怪 才 ”或 者 纽约 爱好 者 可 以 欣赏 。 因 此 ， 有 些 地 方 我 任 由 自己 
的 激情 驰 强 。 我 决定 充分 利用 某 些 地 铁 的 好 的 效果 ， 因 此 我 包含 了 像 
Gowanus 运 河 这 样 的 特征 ， 其 中 Smith 9 号 街道 车 站 穿 过 该 运河 ， 在 显 
示 上 必须 去 除 它 (高 达 91 英 尺 ， 是 系统 中 最 高 的 车 站 ) 。 











角度 设计 








在 最 后 的 设计 中 ， 我 对 很 多 角度 都 以 标准 方式 显示 ， 但 是 为 了 显 
示 清 晰 ， 我 有 时 做 了 一 些 修改 。 我 不 拘 于 角度 的 局 限 。 标 准 化 是 件 好 
事 ， 但 是 我 的 目标 是 利用 标准 化 使 得 乘客 可 以 理解 地 面 上 的 事情 。 我 
还 决定 把 地 铁 站 点 名 字 都 放 在 水 平 线 上 ， 保 持 一 致 以 便于 阅读 ， 如 伦 
致 地 铁 图 那样 ， 而 不 古 把 它们 塞 得 到 处 都 是 。 





桥梁 和 隧道 


我 做 这 个 项 目的 目标 之 一 是 能 够 生成 一 个 工具 ， 可 以 鼓励 人 们 乘 
坐 地 铁 而 不 是 开车 。 由 于 这 个 原因 ， 我 决定 去 除 所 有 的 汽车 桥架 和 隧 
道 (除了 标志 性 的 布鲁克 林 大 桥 ) 。 我 布 望 乘坐 地 铁 旅 行 的 经 历 可 以 
尽 可 能 地 整 涪 人 简单 ， 不 会 吸引 人 们 去 开车 ， 而 是 或 励 人 们 乘坐 地 铁 。 


我 设计 中 做 出 的 许多 选择 是 基于 以 下 原则 。 


用 用 内 十 于 二 人 


存在 一 些 纽约 标识 可 以 帮助 乘客 辨别 方向 ， 这 让 人 放心 。 在 某 种 
程度 上 ， 它 们 表示 一 些 熟 悉 的 事物 ， 地 铁 图 可 以 是 富 于 情感 的 。 因 
此 ， 我 觉得 保留 这 些 图 标 可 以 增强 地 铁 图 作为 工具 的 用 户 友好 性 。 我 
设计 的 不 是 地 理 上 十 分 精确 的 地 形 地 图 ， 而 是 情感 和 地 理 上 相对 准确 
的 地 铁 疼 一 一 曼哈顿 看 着 像 曼 哈 顿 ， 中 央 公 园 是 绿色 的 ， 哈 德 进 河 走 
蓝 色 的 ， 而 地 铁 站 点 相互 之 间 以 及 和 街道 的 相对 位 置 都 是 准确 的 《〈 比 
如 德 兰 街 在 包 厘 街 的 东部 ) oo 同样 为 了 以 人 为 本 ， 我 在 地 铁 图 中 包含 
了 一 些 有 名 的 标志 一 一 目 由 女 昼 ,爱丽 丝 岛 雕像 ， 布 鲁 克 林 大 桥 。 而 
且 我 不 仅仅 只 是 通过 名 字 标 签 来 显示 它们 ; 实际 上 显示 的 古 大 家 所 熟 
悉 的 它们 的 形状 ， 如 20 世 纪 30 年 代 后 期 的 地 铁 图 一 样品 o 


























[1] : 我 原来 想 放 上 帝国 大 厦 ， 但 是 它 会 影响 中 城 的 展示 ， 而 且 我 一 直 
以 来 的 目标 古 设计 一 个 真正 简单 实用 的 地 铁 图 | 





由 小 区 组 成 的 城市 


当 我 乘坐 地 铁 去 看 望 母 亲 时 ， 我 不 是 去 第 95 街 的 地 铁 站 看 她 ;我 
征 去 她 家 里 看 望 ， 在 布 鲁 死 林 的 珊 奇 湾 区 。 这 正 是 纽约 的 一 个 重要 特 
征 : 它 是 由 各 个 小 区 组 成 的 城市 ， 而 且 纽 约 当 地 人 一 提 到 这 座 城市 ， 
束 想 着 这 些小 区 。 这 正 是 我 们 的 参照 系 ， 比 如 说 ， 我 们 从 华盛顿 高 地 
区 到 瑞 奇 湾 区 。 





当前 的 MTA 地 铁 图 包含 一 些小 区 名 字 ， 但 是 和 地 铁 站 点 名 子 相 
比 ， 它 们 只 不 过 是 用 深 监 色 显 示 的 单词 ， 对 地 区 的 描述 没有 什么 价 
值 。 不 存在 信息 层次 。 通 过 对 小 区 进行 颜色 编码 一 一 至 少 在 19 世 纪 40 
年 代 以 前 ， 纽 约 市 地 铁 图 吏 开 始 用 这 种 方式 了 一 一 以 不 显眼 的 方式 
(采用 柔和 的 色调 ) ， 用 白色 文本 来 显示 标签 ， 而 地 铁 站 点 名 字 是 以 
黑色 文本 显示 ， 因 此 不 会 造成 视觉 干扰 ， 通 过 这 种 方式 ， 我 能 够 在 地 
铁 岁 上 提供 多 层次 的 信息 显示 ， 而 不 影响 地 铁 图 的 清晰 和 功能 特征 。 





























同样 ， 这 些 元 素 实 际 上 是 在 Hlustrator 工 具 中 ， 通 过 不 同 的 数字 图 
像 层 创建 的 。 它 使 得 我 可 以 通过 不 同方 式 显示 不 同 小 区 ， 从 而 确定 哪 
些小 区 是 真正 需要 显示 的 ， 并 制作 出 显示 不 同 小 区 名 字 的 不 同 版 本 的 
地 铁 图 。 




















一 种 尺寸 并 不 适合 所 有 场合 








我 相信 分 离 功能 对 于 任何 有 用 的 可 视 化 或 工具 都 是 很 重要 的 。 分 
层 显示 的 男 一 个 好 处 是 它 允 许 我 们 后 期 为 用 户 界 面 定制 地 铁 图 。 
iPhone 和 iPad 的 应 用 提供 了 KickMap 地 铁 图 ， 随 着 用 户 对 地 铁 图 进行 缩 
放 ，KickMap 地 铁 图 的 详细 信息 会 目 动 变 化 。 地 铁 图 除了 作为 应 用 ， 
乘客 在 很 多 不 同 的 场景 下 也 会 查看 地 铁 图 : 有 可 折 共 的 打印 版 ， 挂 在 
地 铁 站 的 大 幅面 版 ， 贴 在 地 铁 车 厢 上 的 (在 座位 右 后 方 ， 因 而 你 需要 
从 某 位 乘客 的 缝 际 中 查看 ， 以 及 贴 在 网 上 的 。 当 前 ， 你 从 每 个 地 方 
得 到 的 是 基本 相同 的 地 图 ， 但 是 实际 上 不 应 该 如 此 : 在 每 个 场合 下 ， 
应 该 有 一 个 稍微 不 同 的 版 本 ， 它 根据 当时 的 特定 环境 进行 了 优化 。 














每 个 地 铁 图 版 本 都 应 该 有 自己 的 设计 ， 根 据 其 所 在 的 场合 进行 定 
制 。 举 个 例子 ， 挂 在 地 铁 站 的 大 幅面 版 ， 应 该 能 够 显示 各 个 小 区 ， 但 
征 在 地 铁 车 厢 中 是 供 乘客 做 出 决策 参考 的 ， 如 是 否 需 要 在 下 一 个 地 铁 
站 下 车 。 因 此 ， 在 地 铁 车 厢 中 的 地 铁 图 就 不 必 提 供 所 有 的 公交 信息 
T? 





场合 也 不 仅仅 只 是 物理 上 的 。 晚 上 11 点 以 后 ， 纽 约 的 26 条 地 铁 线 
减少 到 19 条 。 因 此 ， 除 了 日 天 /夜间 的 KickMap 主 地 铁 图 ， 我 还 设计 了 
如 图 5-12 所 示 的 夜间 地 铁 图 。 不 是 依赖 在 图 下 角 包 售 大 量 文字 、 难 以 


阅读 的 图 形 来 说 明 的 一 张 固 定 大 小 的 地 铁 图 ， 而 是 给 乘客 提供 夜间 地 
FA 〈 不 仅仅 是 在 iPhone 上 ， 而 且 在 地 铁 图 车 厢 上 也 提供 ) 。 





Al 5-12: 只 显示 在 夜间 11 点 到 姿 晨 6: 30 运 行 的 地 铁 线 路 的 KickMap 
地 铁 图 夜间 版 ( 见 彩 图 35) 

在 设计 纽约 的 夜间 版 地 铁 图 时 ， 我 对 白天 /夜间 版 本 地 铁 图 进行 了 
简化 ， 删 除了 大 部 分 的 街道 和 小 区 信息 ， 因 为 它们 看 起 来 很 元 余 。 此 
外 ， 我 非常 喜欢 Beck 的 伦敦 地 铁 图 的 简洁 美观 ， 为 了 和 它 一 致 ， 把 纽 
约 的 夜间 地 铁 图 也 设计 得 很 简洁 。 


结束 语 


最 后 ， 我 确实 认为 KickMap 地 铁 图 实现 了 我 绝 大 多 数目 标 : 使 地 
铁 线 和 连接 尽 可 能 地 清晰 以 便于 查看 ， 当 乘客 离开 地 铁 站 时 ， 提 供 清 
晰 的 显示 信息 ， 以 使 他 们 能 够 知道 目 己 在 哪里 ， 从 而 使 地 铁 对 所 有 人 
显得 友好 热情 。 








然而 ， 我 的 主要 目标 是 把 我 设计 的 地 铁 图 放 到 地 铁 乘客 手 里 。 
MTA 拒 绝 了 我 的 设计 后 ， 我 找到 了 另 一 种 方式 来 分 发 它 ， 通 过 Applie 
的 iTunes 一 一 为 iPhone、iPod Touch 和 iPad 提 供 两 个 应 用 程序 ， 一 个 免 
费 的 ， 一 个 付费 的 。 





我 做 出 的 所 有 选择 都 是 为 了 使 用 户 体验 尽 可 能 的 无 终 和 愉悦 。 显 
然 ， 我 激 起 了 很 多 人 的 共鸣 ， 超 过 25 万 (而 且 还 在 增长 ) 的 用 户 通过 
iTunes 下 载 了 KickMap 地 铁 图 。 这 是 件 好 事 ， 但 是 我 仍然 希望 KickMap 
地 铁 图 一 一 或 者 一 些 更 好 的 地 铁 图 一 一 能 够 取代 当前 地 铁 系 统 的 地 铁 
图 。 我 希望 人 们 使 用 我 们 的 无 与 伦比 的 24 小 时 地 铁 系统 能 够 感到 舒 
心 ， 甚 至 幸福 。 地 铁 系统 很 复杂 ， 但 是 如 果 人 们 知道 乘坐 地 铁 可 以 变 
得 多 么 简单 ， (如 果 地 铁 图 成 为 人 们 的 好 朋友 由 ， 而 不 是 障碍 ) 地 铁 
乘坐 量 将 会 增加 。 最 终 ， 它 不 仅仅 有 利于 地 铁 系 统 本 身 ， 而 且 有 利于 
所 有 在 这 里 生活 、 工 作 、 参 观 和 呼吸 的 人 们 ! 














[1]: 我 想 很 多 人 对 于 作为 纽约 伟大 象征 的 地 铁 图 充满 热情 。 地 铁 图 显 
示 了 地 铁 作为 一 种 动态 的 毛细 血管 系统 滋润 着 这 座 城市 。 这 不 仅 在 人 
们 的 观念 上 ， 而 且 在 历史 上 亦 是 如 此 : 建立 地 铁 是 为 了 以 低廉 的 运输 
成 本 往返 于 中 央 商 务 区 ， 并 惠及 新 的 居住 区 ， 从 而 这 座 城市 可 以 继续 
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天 空中 也 有 道路 。 虽 然 我 们 肉眼 看 不 见 它 们 ， 但 是 它们 确实 是 存 
在 的 : 独特 的 、 定 义 严 格 的 道路 ， 每 天 有 成 和 十 上 万 的 飞机 沿 着 这 些 
路 飞行 。 作 为 独立 的 个 体 观察 员 ， 我 们 可 能 永远 都 无 法 猜测 出 这 些 情 
况 ， 但 是 对 原始 的 飞行 数据 所 做 的 绘图 却 为 我 们 展示 了 男 一 面 ( 见 图 6- 
1) 。 








“飞行 模式 ”( (Fight Patterns) 是 我 在 2005 年 开始 启动 的 一 个 项 目 ， 
它 是 对 美国 和 加 拿 大 的 民航 运输 进行 可 视 化 。 它 以 两 种 媒介 方式 存 
在 ;静态 图 像 ， 它 追踪 在 24 小 时 之 内 美国 和 加 拿 大 机 场 抵达 和 离开 的 
飞机 ; 视频 图 像 ， 描 述 了 和 静态 图 像 一 样 的 同一 份 数据 的 运动 状态 。 
在 本 章 中 ， 我 将 向 你 展示 其 中 一 些 图 像 ， 并 探讨 用 于 演 染 这 些 图 像 的 
技术 。 我 还 会 分 享 一 些 想 法 ， 探 讨 我 为 何 觉得 该 项 目 如 此 吸引 人 心 ， 
以 及 为 何 希 望 你 也 能 有 同样 的 感受 则 。 





图 6-1:“ 飞 行 模式 ”， 飞 机 抵达 和 离开 美国 和 加 拿 大 机 场 时 的 飞行 地 
理 位 置 的 数据 可 视 化 ( 见 彩 图 36) 


下 和 完 ， 在 我 看 来 ， 这 个 可 视 化 拥有 两 个 最 为 重要 的 特征 ， 第 一 个 
特征 是 所 有 飞机 往往 沿 厦 完 全 相同 的 飞行 路 线 飞 行 。 当 我 最 开始 对 数 
据 进 行 泻 染 时 ， 我 期 望 看 到 的 是 接近 机 场 的 飞机 是 紧密 排列 组 合 在 一 
起 ， 而 且 不 同 机 场 之 间 的 飞机 分 散 度 很 高 。 但 是 ， 实 际 情况 却 刚 好 相 
反 : 不 同 机 场 之 间 的 飞行 路 线 通 党 是 聚集 在 一 起 ， 而 只 是 在 飞机 准备 
降落 或 起 飞 的 阶段 ， 其 飞行 路 线 才 会 趋 于 分 散 ( 见 图 6-2 和 图 6-3) ° 























仔细 想 想 ， 这 是 非常 有 意思 的 。 天 空 是 无 限 沿 开 的 ， 没 有 任何 自 
然 的 限制 ， 因 此 飞机 可 以 选择 任何 路 线 飞 行 。 但 是 当 碍 看 “飞行 模 
式 " 时 ， 看 起 来 束 像 古 有 张 地 图 悬挂 在 空中 ， 它 类 似 于 空中 高 速 公路 系 
统 ， 不 同 目的 地 之 间 有 指定 的 路 线 。 你 甚至 可 以 给 其 他 飞机 “让 路 ”。 














图 6-2: 图 6-1 所 示 的 “飞行 模式 ”的 部 分 特写 图 ， 说 明了 我 所 期 鹿 的 通 
过 数据 能 够 看 到 的 .指向 各 个 方向 的 航线 ( 见 彩 图 37) 


为 什么 会 是 这 样 呢 ? 说 实话 ， 我 也 不 太 确 定 。 这 些 航 线 可 能 只 是 
最 高 效 的 飞行 路 线 ， 或 者 一 一 我 想 更 有 可 能 是 一 一 这 些 航 线 是 由 很 多 


因素 来 决定 的 : WN KALIJA DARRA ` BON RT eee er H + IT 
的 航道 方向 、 海 空 控 制 系统 、 在 人 口 密度 高 的 地 区 的 飞行 限制 规则 、 
风 回 气压 等 气象 因素 。 无 论 如 何 ， 我 认为 “飞行 模式 ”所 显示 的 趋势 都 
很 震撼 人 心 ， 因 为 它 显示 了 一 个 完全 开放 的 空间 的 逻辑 组 织 。 正 是 由 
于 这 个 原因 ， 我 选择 “模式 ”作为 这 个 项 目的 名 称 。 











“飞行 模式 ”的 第 二 个 显著 特点 是 它 使 得 我 们 能 够 对 浩瀚 的 美国 和 
加 拿 大 的 航空 系统 进行 可 视 化 。 在 我 看 来 ， 这 正 是 数据 可 视 化 的 价值 
所 在 。 我 们 无 法 通过 查看 天 空 或 者 原始 数据 来 完全 了 解 美国 和 加 拿 大 
的 航 至 体系 ， 但 是 我 们 可 以 通过 可 视 化 来 了 解 它 们 。 对 这 些 航 道统 一 
进行 可 视 化 显示 ， 它 们 所 展示 给 我 们 的 方方面面 要 超出 其 各 个 部 分 单 
独 显 示 的 总 和 : 这些 可 视 化 为 我 们 展示 了 一 个 系统 ， 而 且 我 相信 这 个 
系统 是 美丽 的 。 该 系统 显示 的 不 仅仅 只 是 航道 ， 而 且 是 关于 人 类 的 地 
理 种 群 ， 更 广泛 地 说 ， 它 显示 了 我 们 人 类 所 期 望 的 旅程 。 




















图 6-3: “飞行 模式 ”的 男 一 个 特写 图 ， 说 明了 我 所 发 现 的 共同 的 方 
面 : 清晰 、 明 亮 的 线条 表示 有 大 量 飞 机 紧密 跟 进 的 航线 ( 见 彩 图 38) 


“飞行 模式 ”是 使 用 编程 语言 Processing 创建 生成 的 。Processing 是 
特别 适合 于 数据 可 视 化 的 一 种 编程 语言 。 获 取 到 飞行 数据 (这 一 步 一 
直 都 是 关键 环 科 ) 之 后 ， 我 写 了 一 个 简单 的 Processing 程 序 ， 把 每 个 数 
据点 的 纬度 和 经 度 翻译 成 在 计算 机 屏幕 上 显示 的 二 维 地 图 的 一 个 点 。 








同时 ， 为 每 个 点 添加 了 选择 性 的 色彩 来 表示 一 些 信息 ， 如 高 度 和 飞机 
型 号 。 然 后 ， 我 把 这 些 图 片 以 TGA 文 件 格式 局 导出 。 


对 这 些 视频 进行 可 视 化 有 些 棘 手 。 如 采 以 运动 看 的 数据 点 的 方式 
来 展示 飞机 ， 这 种 方式 无 法 展示 每 次 飞行 的 变化 。 因 此 ， 采 取 的 方法 
是 在 相 邻 的 两 个 数据 点 之 间 画 一 条 线 ， 并 在 设 定 的 时 间 间 隔 后 (3 分 钟 
或 5 分 钟 ， 取 决 于 数据 集 ) ， 在 整 张 地 图 上 增加 4% 的 黑色 不 透明 层 。 这 
意味 着 时 间 越 久 的 航道 会 随 着 时 间 的 推移 而 逐渐 消 隐 到 背景 中 ， 通 过 
这 种 方式 有 助 于 显示 飞机 的 飞行 进度 。 








“飞行 模式 ”中 使 用 的 数据 是 “行业 飞机 状态 显示 ( (Arcraft Situation 
Display to Industry,ASDD” 中 订阅 的 处 理 后 的 版 本 ， 是 一 份 由 美国 联邦 
航空 局 ( (FA) 发 布 的 包含 了 所 有 的 民航 记录 中 的 数据 。 该 订阅 只 有 和 
航空 业 有 关 的 公司 才能 获取 。 多 亏 了 同事 Scott Hessels， 我 获得 了 2005 
年 的 28 个 小 时 的 飞行 数据 。 这 个 可 视 化 的 最 初版 本 是 “天 体力 学 ”项 目 
的 一 个 成 果 ， 这 个 工作 是 我 和 加 州 大 学 洛杉矶 分 校 ( (ULA)“ 设 计 | 媒体 
艺术 ”项 目的 Gabriel Dunne 一 起 合作 进行 的 。 





我 工作 中 使 用 的 初始 数据 集 是 2005 年 3 月 19 日 到 20 日 的 飞行 数据 ， 
它 包含 141029 次 航班 。 每 3 分 钟 取样 一 次 ， 总 共 包 含 6871383 个 数据 
点 。3 年 后 ， 即 2008 年 ， 我 和 《Wired》 杂 志 合 作 获 取 到 了 另 一 份 数 
据 。 该 数据 来 源 于 2008 年 8 月 12 日 到 13 日 ， 包 含 205514 次 航班 。 每 分 钟 
取样 一 次 ， 共 包含 26552304 个 数据 点 。 





获取 到 的 数据 是 从 ASDI 订 阅 的 ， 每 个 数据 点 包括 以 下 信息 : 
-维度 


-经 度 


飞机 制造 商 
飞机 型 号 
“FN TA) 
-航班 号 


如 采 你 对 于 查看 一 些 具 体 数 据 感 兴趣 ， 目 前 FAA 以 XML 格式 提供 
了 一 些 ASDI 的 订阅 数据 的 样本 ， 可 以 通过 
http: /www.fly.faa.gowASDIasdi.html 访 问 。 


[1] : 本 章 的 所 有 图 像 都 可 以 从 网 上 获取 高 清 图 像 ， 因 此 ， 如 果 你 对 这 
些 图 像 很 感 兴趣 ， 我 推荐 你 访问 我 的 Web 站 点 ， 可 以 查看 这 些 图 的 最 佳 
效果 : http: //www.aaronkoblin.com/work/flightpatterns/。 在 该 站 点 ， 你 
可 以 对 可 视 化 进行 缩放 ， 查 看 飞机 高 度 、 型 号 和 制造 商 的 彩色 显示 方 
式 。 你 还 可 以 查看 飞行 数据 的 动态 视频 。 

[2] 参考 http: //processing.org ° 

[3] TG A， 也 称 TA RG A， 是 一 种 结构 较 简 单 的 图 像 文 件 通 用 格式 。 
你 可 以 访问 http: //en.wikipedia.org/wiki/Truevision_TGA il 

http: /Wilocal.wasp.uwa.edu.au/~pbourke/dataformats/tga/ 了 解 更 多 信息 。 
[4] ASDI 是 通过 美国 交通 局 提供 的 数据 流 服务 。 你 可 以 访问 

http: //en.wikipedia.org/wiki/Aircr aft_Situation_Display_to_Industry 来 了 








解 更 多 。 


[5]“ 民 用 ? 指 的 是 FAA 追 踩 的 所 有 非 盏 用 的 、 商 业 的 和 私人 的 航班 。 


“飞行 模式 ”没有 使 用 复兴 的 地 图 制作 技术 : th] REIT 
图 ， 让 数据 本 映 说 话 。 然 而 ， 在 讲述 相同 的 航道 上 的 不 同 “ 故 事 ” 时 ， 
色彩 起 着 至 天 重要 的 作用 。 图 6-4 到 图 6-9 给 出 了 一 些 例子 。 





图 。6-4: 在 这 张 地 图 中 ， 用 色彩 表示 高 度 ， 纯 白色 表示 飞机 在 地 平面 
上 ( 见 彩 图 39) 


图 6-5: Atlanta 机 场 的 一 个 特写 图 ， 清 晰 地 显示 了 飞机 跑道 的 布局 
(同样 ， 色 彩 表示 高 度 ， 见 彩 图 40) 














图 6-6: 在 该 图 中 ， 使 用 色彩 来 区 分 不 同型 号 的 飞机 ( 见 彩 图 41) 








Rl 6-7: 单个 型 号 的 飞机 的 地 图 ， 只 显示 了 飞机 Embraer ER J 1455224 
的 航班 飞行 路 线 〈 见 彩 图 42) 








Al 6-8: 另 一 个 型 号 的 飞机 的 地 图 ， 只 显示 波音 737 飞 机 的 航班 飞行 路 
线 ( 见 彩 图 43) 





图 6-9: 在 这 张 地 图 上 ， 不 同 的 色彩 表示 飞机 的 起 飞 和 着 陆 : EER 
示 正 在 降落 的 飞机 ， 蓝 色 表 示 正 在 起 飞 的 飞机 ( 见 彩 图 44) 


zj ja] 


在 动向 方面 , “飞行 模式 ”揭示 了 新 的 信息 ， 包 括 随 着 时 间 变 化 的 
飞行 方向 和 飞行 中 的 飞机 的 数量 。 可 视 化 夜以继日 地 追踪 着 每 个 航 
道 ， 以 便 显 示 一 个 国家 如 何 进 入 “梦乡 ”以 及 如 何在 型 日 “ 醒 来 ”( 见 图 6- 
10 和 图 6-11) 。 
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A] 6-10: 东海 必 “ 醒 来 ”的 图 像 : 这 是 一 幅 静 态 图 像 ，2005 年 3 月 20 日 

美国 东部 标准 时 间 早 上 7: 31， 显 示 了 东海 岸 的 高 活动 性 ， 以 及 西海 岸 

的 虚拟 静态 性 (除了 从 夏威夷 起 飞 的 向 北 飞行 的 一 些 红眼 航班 ， 见 彩 
图 45) 
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Yo 
Al 6-11: 美国 东部 标准 时 间 下 午 4 10， 我 们 看 到 一 个 非常 不 同 的 境 





Ui: 此 刻 ， 航 空 最 高 峰 达 到 了 19255 架 飞机 ( 见 彩 图 46) 





在 我 的 网 站 上 有 一 个 三 维 可 视 化 视频 ， 它 拉 绘 了 三 维 投影 面 的 z 轴 
维度 。 为 了 在 陆地 侧面 可 以 识别 出 z 轴 ， 我 对 维度 做 了 些 夸 张 显示 ， 这 
样 有 利于 生成 稠密 、 有 趣 的 可 视 化 。 然 而 ， 在 印刷 上 显示 的 效果 不 
好 。 感 兴趣 的 话 ， 我 推荐 上 网 看 一 下 。 


Fe i A Pa 
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异 单 ， 我 删除 了 其 中 一 些 。 举 个 例子 ， 为 了 在 数据 集中 寻找 最 快 的 航 
线 ， 我 识别 出 一 个 航班 可 以 在 6 分 钟 内 穿 过 整个 美国 一 一 这 显然 是 一 个 
背 误 。 必 一 个 航班 在 穿 过 美国 时 ， 曲 曲折 折 地 沿 着 “之 ”字形 (不 可 能 
的 ) 由 北向 南 的 航线 飞行 一 一 男 一 个 明显 的 错误 。 我 把 这 两 个 航班 的 
数据 部 删除 了 。 








还 存在 一 些 其 他 异 闻 ， 然 而 ， 我 把 这 些 异 各 保留 了 下 来 。 举 个 例 
子 ， 北 大 西洋 的 航道 看 起 来 很 曲折 。 我 倾 辐 于 在 可 视 化 中 保留 这 些 数 
据 ， 因 为 显示 来 日 欧洲 的 航班 是 很 重要 的 。 我 不 知道 为 什么 会 存在 这 
些 错误 。 可 能 是 飞机 设备 或 者 ASDI 的 处 理 出 现 了 故障 ， 或 者 是 数据 提 
供 丙 导致 的 错误 。 在 长 时 间 思 索 之 后 ， 我 决定 保留 数据 原样 。 此 外 ， 
当 查 找 最 短 的 航班 时 ， 我 发 现 3000 多 个 航班 在 没有 离开 机 场 时 就 报告 
了 它们 的 地 理 位 置 ， 我 也 保留 了 这 些 异 第 。 











图 6-12: 北大 西洋 的 飞行 线路 显示 了 数据 中 的 一 些 异 常 ( 见 彩 图 47) 


如 果 你 仔细 查看 该 可 视 化 ， 你 将 会 注意 到 一 些 有 趣 的 特征 。 一 个 
明显 的 例子 是 美国 内 华 达州 的 禁 飞 区域 ( 见 图 6-13) 。 然 而 ， 这 些 禁 飞 
区 域 看 起 来 并 没有 完全 禁 飞 ， 可 以 观察 到 有 很 少量 的 航班 穿 过 黑色 的 
太空 。 
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Al 6-13: 美国 西南 部 禁 飞 区 的 一 个 特写 ( 见 彩 图 48) 


每 当 你 处 理 大 量 的 、 有 机 的 数据 集 时 ， 你 会 发 现 数据 中 存在 错误 
和 有 异 钊 。 我 认为 去 思考 如 何 处 理 这 些 数 据 是 很 重要 的 。 对 于 每 一 种 数 
据 的 处 理 ， 我 都 拉 心 目 问 ， 通 过 对 数据 操纵 ， 我 是 否 会 破坏 数据 的 完 
整 性 ? 如 采 答 案 是 肯定 的 ， 最 好 还 是 维持 数据 本 喘 的 完整 性 。 对 于 存 
在 明显 蚀 译 的 数据 ， 把 它们 全 部 有 删除。 如果 存在 某 些 原因 ， 使 得 你 应 
该 保留 异常 而 不 是 删除 它们 ( 那 应 该 调查 它们 ， 查 找 出 其 中 隐藏 的 有 
趣 的 故事 ) 。 








“飞行 模式 "是 一 种 简单 的 数据 可 视 化 ， 而 且 这 种 简单 性 使 得 它 更 
有 了 吸引 力 。 下 先 ， 该 项 目 显 示 了 空中 交通 系统 地 图 ， 据 我 所 知 ， 在 此 
之 前 它 从 未 被 公开 可 视 化 过 。 其 次 ， 可 视 化 易于 理解 ， 虽 然 它 完全 是 
由 数据 生成 的 一 一 可 视 化 中 根据 机 场 创 建 的 节点 与 我 们 对 北美 地 理 特 
征 的 理解 保持 了 一 致 ( 见 图 6-14) 。 相 似 地 ， 正 如 我 们 所 期 望 的 那样 ， 
最 稠密 的 航道 位 于 人 口 密度 最 高 的 地 区 。 








Al 6-14: 美国 西南 部 的 一 个 特写 图 一 一 你 可 以 识别 出 几 个 机 场 呢 《〈 见 


彩 图 49) 











最 后 ， 我 觉得 “飞行 模式 ”之 所 以 非常 引信 注 目 正 是 因为 它 很 误 舞 
人 心 。 这 一 方面 可 能 是 由 于 和 地 图 关联 的 特殊 的 感情 ， 但 是 通过 显示 
航空 的 有 序 性 以 及 揭示 飞机 从 一 个 地 方 如 何 到 达 另 一 个 地 方 , “飞行 模 
式 ” 显 示 了 一 个 逻辑 系统 。 而 当 我 们 坐 在 离 地 面 34000 枣 扩 的 机 舱 的 16A 
位 置 时 ， 我 们 只 不 过 是 浩瀚 的 天 空中 非常 渺小 的 一 部 分 。 我 觉得 能 够 
看 到 一 个 规模 如 此 庞大 的 系统 工作 运行 如 此 民 好 很 是 鼓舞 人 心 。 在 美 
国 和 加 拿 大 每 天 就 有 超过 200000 个 航班 ， 我 们 真正 地 在 空中 * 修 路 ”， 
从 出 发 地 到 目的 地 ， 每 个 航班 都 承载 7 成 千 上 万 人 ， 安 全 记录 非常 
高 。 因 此 , “飞行 模式 ”不 仅仅 是 数据 可 视 化 ， 它 也 是 对 当代 空中 旅行 
创造 的 奇迹 的 展览 。 
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“飞行 模式 ”的 思想 和 局 发 归功 于 加 州 大 学 洛杉矶 分 校 的 两 个 同 
事 : Gabriel Dunne 和 Scott Hessels。 在 2005 年 ， 我 们 启动 了 一 个 艺术 项 
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航天 系统 。 该 项 目的 一 小 部 分 工作 是 致力 于 处 理 航 空 飞行 数据 ， 这 些 
数据 正 是 我 用 来 构建 < 飞行 模式 ”的 原始 数据 。 感 谢 加 州 大 学 洛杉矶 分 
校 的 Mark Hansen 以 及 《Wired》 杂 志 〈 尤 其 是 Carl DeTorres) 为 这 些 图 
像 的 进一步 制作 所 需 的 数据 提供 的 帮助 。 


第 7 草 “” 你 的 选择 揭示 你 是 谁 : HLA RUNS 
可 视 化 ”Valdis Krebs 


数据 挖 气 和 数据 可 视 化 密 不 可 分 。 在 数据 中 挖 据 复杂 的 模式 并 且 
对 它 进行 可 视 化 ， 可 以 便于 人 们 利用 计算 机 的 计算 能 力 和 人 类 的 思维 
能 力 ， 对 可 视 化 有 进一步 理解 。 如 有 果 对 数据 挖 据 和 可 视 化 善 加 利用 ， 
它们 可 以 成 为 伟大 的 组 合 ， 能 够 催生 出 高 效 复 洒 的 数据 处 理 和 模式 识 


别 。 











在 本 章 中 ， 我 们 将 探索 一 些 数据 集 ， 挖 掘 出 隐藏 于 数据 背后 的 人 
的 行为 。 基 于 活动 出 席 率 和 对 象 选 择 构 造 出 的 模式 ， 将 为 我 们 了 解 人 
们 参加 活动 和 选择 对 象 的 思考 和 行为 提供 线索 。 通 常 ， 简 单 的 行为 和 
选择 就 可 以 揭示 出 我 们 是 谁 ， 以 及 我 们 像 谁 。 


早期 社交 图 


在 20 世 纪 30 年 代 ， 一 组 社会 学 家 和 种 族 学 家 做 了 一 个 很 小 的 “数据 
挖掘 ?实验 。 他 们 的 实验 目标 是 描绘 出 美国 南部 小 城镇 的 一 组 女人 的 社 
交 结 构图 。 他 们 使 用 的 数据 集 是 当地 报纸 上 公开 发 表 的 数据 。 该 数据 
集 很 小 ，18 个 女士 参加 14 个 不 同 的 社交 活动 。 





他 们 在 想 : 我 们 能 否 弄 清 这 组 女士 的 社交 结构 我们 称 之 为 社交 
A) ? 为 了 这 个 目标 ， 他 们 提出 了 以 下 问题 : 





谁 和 谁 是 朋友 ? 
-她们 属于 哪些 社交 图? 


谁 在 社交 圈 中 起 到 了 关键 作用 ? 





识别 网 络 结构 通 稼 会 涉及 “攻击 性 ”的 采访 和 调查 。 是 否 有 可 能 只 
通过 检视 公共 行为 来 推导 出 网 络 结构 ? 真正 的 问题 是 : 人们 所 做 出 的 
公开 的 选择 能 人 否 揭示 你 是 谁 以 及 你 像 谁 ? 能 够 看 透 人 类 系统 、 组 织 和 
社区 内 部 真正 的 关系， 是 理解 不 同 群 组 如 何 交 往 及 其 成 员 的 行为 方式 
的 核心 。 社 区 网 络 分 析 ( (SA) 是 当前 流行 的 一 门 社会 科学 ， 它 可 以 用 
于 市 场 营 销 、 改 进 组 织 有 效 性 、 构 建 经济 网 络 、 追 竖 疾 病 爆 发 、 揭 露 
欺 骄 和 腐败 、 分 析 在 线 社交 网 络 中 发 现 的 模式 以 及 干扰 翁 怖 分 子 的 网 
络 。SNA 技 术 还 可 以 换 示 “ 南 方 女 性 ”数据 集中 的 基础 网 络 结构 ， 我 们 
很 快 将 对 此 了 解 更 多 。 

















SNA 在 20 世 纪 早 期 作为 社会 人 际 学 的 方式 产生 。Jacob Moreno!!! 
对 他 所 在 的 学 校 的 朋友 关系 (或 称 社交 图 ) 的 绘图 在 社会 学 历史 学 家 
之 间 很 流行 ， 商 业 学 者 开始 转向 20 世 纪 早 期 对 著名 的 Hawthorne 工 厂 的 
工人 关系 局 ， 以 及 后 期 的 *Bank Wiring Room 员工 间 的 交互 关系 的 研 
究 。 图 7-1 说 明了 “Wiring Room” 中 员工 间 的 朋友 关系 的 连接 图 。 
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图 7-1: 20 世 纪 早 期 对 员工 间 工 作 流 的 研究 的 社交 图 


SNA 把 人 类 系统 映射 成 万 点 和 连接 。 世 点 通 贡 代表 人 ， 连 接 用 于 
摘 述 人 们 之 间 的 关系 或 者 交互 的 流 。 连 接 是 有 同 的 。 如 有 下 点 只 有 一 
种 类 型 一 一 举 个 例子 ， 如 Moreno 的 朋友 关系 和 对 Hawthorne 的 “工人 ” 研 
完 中 的 节点 ， 所 有 的 万 扣 都 代表 人 一 一 这 种 方式 被 称 为 单 模式 分 析 。 








然而 , “南方 廊 性 ?研究 初始 于 一 个 稍微 复杂 一 些 的 社区 分 析 : 双 
模式 。 有 两 种 节点 一 一 人 物 和 活动 (事件 ) 一 一 连接 表示 哪些 人 参加 
了 哪些 活动 。 图 7-2 显 示 了 包含 了 两 种 数据 模式 的 社交 图 。 左 边 的 蓝 
节点 表示 受 研究 的 女性 ， 而 右边 的 绿色 节点 表示 参加 的 每 个 活动 。 用 
圆圈 表示 人 ， 方 框 表 示 活 动 。 
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图 7-2: “南方 女性 ”社交 活动 数据 集 的 双 模 式 视图 ( 见 彩 图 50) 
该 图 可 以 得 出 不 同类 型 的 结论 ， 比 如 : 
:3 号 文士 参加 的 活动 多 于 18 号 女士 。 


-参加 8 号 活动 的 人 数 最 多 。 
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式 ， 比 如 这 些 女 士 的 社交 结构 或 者 不 同 活动 之 间 的 关系。 为 了 进行 更 
深入 地 观察 ， 我 们 使 用 一 种 流行 的 社交 网 络 分 析 技 术 ， FET PR 
连接 ， 这 种 技术 可 以 把 双 柑 式 数 据 转 换 成 时 模式 数据 。 在 第 一 次 转换 
中 ， 我 们 将 把 活动 节点 转换 成 连接 : 





X 女 士 和 Y 女 士 所 对 应 的 方太 十 连接 的 ， 因 为 她 们 部 参加 了 活动 


两 个 女士 一 起 参加 的 活动 越 多 ， 她 们 之 间 的 关联 束 越 强 。 我 们 还 
可 以 把 重点 转移 到 活动 网 络 : 





如 琳 有 个 女士 C 同 时 参与 了 活动 A 和 活动 B 这 两 个 活动 ， 那 么 A 和 B 
两 个 活动 斑点 之 间 将 有 一 条 连接 。 


参加 两 个 活动 的 文士 人 数 越 多 ， 则 这 两 个 活动 之 间 的 关系 束 越 
强 。 当 把 双 模 式 网 络 转换 成 单 模式 网 络 时 ， 有 很 多 方法 可 以 计算 和 点 
之 间 的 连接 的 强度 。 在 这 个 例子 中 ， 我 们 使 用 了 最 简单 的 方法 : 对 共 
现 度 求 和 。 


活动 网 络 如 图 7-3 所 示 。 两 个 活动 之 间 的 关系 越 强 ， 其 线条 越 粗 。 
也 就 是 说 ， 参 加 这 两 个 活动 的 女士 越 多 。SNA 软 件 的 网 络 组 织 方式 是 
使 用 改进 的 图 形 布局 算法 来 确定 两 个 人 之 间 的 连接 关系 : 网 络 中 一 个 
节 扩 的 位 置 是 通过 它 的 连接 以 及 这 些 连 接 的 连接 决定 的 。 
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图 7-3: 基于 人 们 共同 的 参与 数 建立 起 来 的 活动 布局 图 


连接 度 较 高 的 节点 位 于 布局 图 的 中 心 ， 而 连接 度 较 低 的 节点 则 在 
图 形 的 四 周 。 因 此 ， 在 社交 日 历 表 中 ， 哪 些 活动 是 最 重要 的 可 以 一 目 
了 然 。 然 而 ， 到 目前 为 止 确实 还 没有 一 张 图 片 展 示 了 我 们 最 感 兴趣 的 
事情 :这 个 小 城镇 的 自然 形成 的 社交 网 络 。 为 了 探索 出 这 个 网 络 ， 我 
使 用 了 “逐步 纳入 ”的 方式 ， 自 先 专 注 于 结构 图 中 最 强 的 关联 ， 然 后 隶 
渐 降 低 病 值 来 找 出 网 络 中 的 弱 天 联 ， 人 允许 更 多 人 和 已 经 存在 于 结构 图 
中 的 人 进行 关联 。 这 种 方法 通常 忽略 数据 中 的 弱 关 联 ， 而 把 它们 作为 
社交 网 的 噪音 数据 而 排除 掉 。 在 这 种 方式 中 ， 小 的 数据 集 上 的 弱 和 连接 








的 排除 操作 必须 十 分 小 心 *。 而 在 有 数目 万 下 点 和 数 百 万 种 选择 的 数据 
集中 ， 调 整 社交 噪 首 数 据 的 条 形 图 往往 束 不 需要 十 分 精确 。 


采用 五 分 制 ，5 表 示 两 个 市 点 之 间 的 连接 最 强 ，1 表 示 最 弱 ， 开 始 
使 用 逐步 纳入 的 方法 ， 从 强度 =5 的 连接 开始 。 换 句 话说 ， 识 别 出 参 加 
活动 最 多 的 女性 。 图 7-4 说 明了 基于 活动 出 局 率 的 最 强 连 氨 。 














我 马上 束 看 到 了 两 个 聚 类 : 一 个 聚 类 包含 了 1 号 、2 号 、3 号 和 4 号 
的 女士 ， 另 一 个 聚 类 则 包含 12 号 、13 号 和 15 号 的 女士 。 我 使 用 两 种 不 
同 的 颜色 对 节点 进行 着 色 ， 从 而 区 分 开 每 个 聚 类 分 组 的 成 员 。 





接 下 来 ， 包 含 下 一 强度 级 别 的 连接 : 强度 =4 的 连接 。 其 结果 是 每 
个 聚 类 内 部 各 目 增加 了 一 些 者 的 节点 ， 但 是 不 存在 能 够 将 两 个 聚 类 连 
接 起 来 的 节点 。 如 图 7-5 所 示 的 ， 我 们 还 是 只 有 两 个 完全 独立 的 分 组 。 
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图 7-4: 基于 同一 活动 出 席 率 的 女士 之 间 最 强 关 联 ( 见 彩 图 51) 
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图 75: 参加 相同 的 社交 活动 的 女士 之 间 强 度 最 高 的 两 级 连接 ( 见 彩 
图 52 ) 


包含 强度 =3 的 连接 之 后 ， 显 示 出 将 两 个 分 组 桥接 在 一 起 的 连接 ， 
如 图 7-6 所 示 。 以 下 情况 在 绝 大 多 数 的 社交 结构 图 中 是 很 常见 的 : 强度 
最 大 连接 出 现在 一 个 分 组 内 部 ， 而 强度 较 弱 、 频 率 较 低 的 连接 出 现在 
两 个 分 组 之 间 。 在 每 个 分 组 内 部 还 存在 一 些 强度 更 弱 的 连接 ， 说 明 在 
一 个 给 定 分 组 内 ， 不 是 所 有 的 人 都 和 这 个 组 的 所 有 节点 都 有 强 连 接 。 
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图 7-6: 通过 对 弱 连 接 “ 逐 步 纳 入 ”进行 桥接 的 两 个 分 组 ( 见 彩 图 53) 


我 们 的 社交 结构 依然 缺乏 一 些 节 后: 16 号 、17 号 和 18 号 女士 。 使 
用 逐步 纳入 算法 ， 这 些 节 点 不 满足 之 前 给 出 的 任何 纳入 标准 。 或 许 这 3 
位 女士 是 城镇 中 新 来 的 ， 或 许 是 她 们 较 不 善于 社交 ， 参 加 的 活动 较 
少 ， 导 致 确定 她 们 的 关系 更 复杂 。 当 我 把 阐 值 降低 到 强度 =2 的 连接 
时 ， 这 3 位 女士 也 被 连接 到 和 社交 网 络 中 。 现 在 ， 所 有 人 都 连接 到 了 网 络 
中 ， 而 最 初 的 两 个 聚 类 结构 还 保留 着 。16 号 女士 是 唯一 的 不 能 明显 归 
属于 某 一 个 聚 类 的 节点， 她 对 两 个 聚 类 的 连接 都 同样 不 频繁 。 因 此 ， 








我 把 她 归于 不 属于 任何 一 个 聚 类 ， 用 紫色 表示 。 最 终 的 自然 社交 网 络 
图 如 图 7-7 所 示 。 
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图 7-7: 基于 在 社交 活动 中 共同 的 出 席 情况 建立 起 来 的 女士 社交 图 
( 见 彩 图 54) 


基于 当地 社交 活动 的 出 席 率 ， 所 有 18 个 女士 都 已 经 被 相应 地 置 于 
社交 网 络 中 。 该 社交 网 络 揭 示 了 和 该 小 镇 相关 的 社交 结构 的 一 些 有 趣 


的 方面 : 





.存在 两 个 显著 不 同 的 社交 聚 类 。 


:两 个 聚 类 之 间 是 连接 的 。 和 社交 重合 说 明了 两 个 案 类 之 则 的 兴趣 和 
天 系 存在 一 些 可 能 的 共同 性 。 


产生 各 种 不 同 的 网 络 角 色 。 有 些 女 十 起 着 连接 作用 ， 对 两 个 聚 类 
有 桥接 作用 ， 而 其 他 女士 则 表现 为 是 聚 类 内 部 的 核心 成 员 ， 只 和 组 内 
的 成 员 有 关联 。 


如 图 7-7 所 示 的 社交 图 可 以 用 于 市 场 膏 销 或 者 口 尖 传播 活动 。 在 该 
人 简单 的 例子 中 ， 除 了 可 以 收集 到 给 出 的 这 些 信息 之 外 ， 通 第 可 以 收集 
到 更 多 的 信息 ， 但 是 仅仅 从 这 些 仅 有 数据 中 我 们 依然 能 够 推导 出 一 些 
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.6 号 女士 可 能 不 会 受到 12 号 女士 的 言谈 举止 的 影响 。 








.4 号 女士 可 能 在 蓝 色 聚 类 内 有 最 高 的 内 部 影响 。 她 可 能 增强 了 其 所 
在 分 组 内 的 当前 每 个 成 员 之 间 的 关联 强度 。 








蓝 色 分 组 的 9 号 女士 是 “ 锋 合 剂 *， 即 对 两 个 分 组 起 桥接 作用 ， 而 且 
能 给 分 组 带 来 新 的 思想 和 观点 。 她 至 少 和 分 组 内 的 一 个 成 员 (4 号 女 
) 有 很 强 的 关联 ， 而 3 号 女士 在 其 所 在 的 分 组 内 又 起 着 重要 作用 ， 这 
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对 于 9 号 女士 很 有 好 处 。 给 一 个 分 组 带 来 想法 的 人 通常 需要 至 少 有 一 个 
在 分 组 内 起 着 关键 作用 的 同盟 。 





.16 号 、17 号 和 18 号 女士 可 能 是 小 镇 新 来 的 ， 或 者 不 是 “和 用 合剂 ”。 
她 们 可 能 知道 分 组 内 发 生 的 事情 ， 但 是 她 们 可 能 不 清楚 分 组 内 部 真正 
的 私密 信息 ， 因 为 她 们 和 各 个 分 组 的 连接 都 很 弱 。 


不 同 的 数据 挖掘 算法 通常 会 产生 不 同 的 结果 ， 即 使 是 对 于 如 上 所 
述 的 小 的 数据 集 。 在 过 去 几 年 ， 不 同 的 社会 学 家 和 网 络 科 学 家 重新 检 
视 了 这 个 有 趣 的 小 数据 集 ， 应 用 新 数据 集 来 查看 出 现 了 什么 模式 。 图 7- 
8 显示 了 21 个 最 流行 的 研究 结果 。 我 们 的 结果 和 13 号 Linton Freeman 的 
研究 结果 相 匹 配 ( (Feeman 2003) : 1 号 ~9 号 的 女士 在 一 个 分 组 ，10 号 
一 15 号 和 17 号 、18 号 的 女士 在 另 一 个 分 组 ，16 号 女士 同时 属于 两 个 分 
组 。Freeman 在 建立 社交 网 络 分 析 ( (Feeman 2004) 中 起 到 了 关键 作 
用 ， 而 且 在 建立 一 些 早期 的 网 络 衡量 标准 上 所 在 的 工作 尤其 重要 ， 这 
些 标准 至 今 还 很 流行 ( (Feeman 1979) ° 

















1 2 3 4 5 6 7 8 9 © T T 3: 4 G 条 WH R 
1 DGG41 W W W WW WwW W W WWW WWW W WV WwW WwW W 
2 HOMS0 W W W W W W W WW W WW WwW W W 
3 P&C72 W WW W WwW W WW W W W WW W W W W WwW WwW WwW 
4 BGR74 W W W W W WwW w WwW WW WW W W WW WW Ww W 
6 BBA7S W WWWWOWWoWWOW WW W W W W WwW W 
6 BCH78 W W W Www wwwwiw Ww 
7 DOR79 W W WWW WwW W wwwwww iw 
8 BCH91 W WWWOWWW WWW WV WwW W WwW W W W WwW 
9 FRE92 WwW WwW WwW W WW WwW WwW W W WW WwW W WW we WwW 
10 E&8B9S W WWW WG WwW W wwwwwiw ww ww 
11 FR193 WNWwWwowowwowownwownwowwowww w Ow W 
R N A N A i A A A A y Ô À À A 
w www ww WwW wwwwiw ww Ow Ww W 
wwwww Ww WwW wWwwwwe we w WwW W W 
15 BE197 W W W WWW WwW wwwwiw ww w 
16 BE297 WwNwWwowownwwowwewewwwiwwiw Ww W WwW 
17 BE397 WNW WwW WW W WW WW W W WW W W W WwW WW wo w WwW 
18 S&F99 W WW WwW WwW W WW W W WW W WW W W Ww ww Ww WwW 
19 ROBOO WWWWWOWOWWWW WW W WwW W W WwW W 
20 OSB00 WWWWWOWWWWWOW WWW W WwW WwW WwW 
21 NEWO. WWWWOWOWWWWOW W WWW W WwW WwW WwW 














图 7-8: 网 络 科 学 家 对 “南方 女性 ”社交 活动 数据 集 的 研究 结 

( (Feeman 2003， 见 彩 图 55) 大 多 数 的 研究 得 出 的 结论 都 是 很 一 致 的 ， 

所 有 的 研究 都 发 现 数据 中 有 两 个 很 不 同 的 聚 类 。 然 而 ， 对 于 哪些 成 员 
属于 哪个 分 组 并 不 是 完全 一 致 ， 尤 其 是 8 号 一 18 号 的 女性 。 该 表 可 以 很 
好 地 显示 成 员 分 组 ， 但 是 它 无 法 揭示 网 络 角色 和 社交 距离 。 图 7-7 所 示 
的 社交 图 确实 清晰 地 显示 了 社交 结构 的 细微 送别， 显示 了 网 络 中 的 失 
败 点 一 一 也 就 是 说 最 可 能 发 生 故 障 的 点 。 举 个 例 于 ， 如 果 把 3 号 女性 移 
开 ， 网 络 将 会 有 很 大 变化 。 查 看 4 号 女性 和 9 号 女性 对 于 3 号 女性 的 离开 


将 会 如 何 反 应 会 很 有 意思 。 

[1] JacobMoreno 是 一 名 社会 科学 家 ， 他 是 心理 疗法 的 创始 人 。 更 多 详 
JU: http: //en.wikipedia.org/wiki/Jacob_L._Moreno ° 

[2] 年 至 1932 年 ， 人 们 对 Hawthorme 的 工人 进行 研究 ， 发 现 了 工业 管理 上 
的 霍 桑 效应 ( (Hwthorne effect)， 即 工人 等 会 因 受 到 研究 人 员 的 关注 而 
增加 产量 或 提高 成 绩 。 








Amazon 的 书籍 购买 数据 的 社交 


Amazon.com 人 允许 用 户 轻 松 容易 地 访问 网 站 以 获取 经 过 汇总 的 购 丈 
数据 “对 交易 数据 进行 聚集 ， 防 止 对 个 人 信息 的 识别 ) 。Amazon 提 供 
的 书籍 购买 数据 形成 了 和 图 7-3 的 活动 网 络 类 似 的 网 络 数据 集 。 在 
Amazon 网 站 ， 人 们 不 是 参与 相同 的 社交 活动 ， 而 是 通过 购买 相同 的 书 
籍 而 相互 天 联 。 在 这 两 种 情况 下 ， 人 们 被 关联 在 一 起 的 原因 都 征 因为 
有 些 人 和 天 一 些 人 做 出 了 相同 的 选择 。 








在 每 个 商品 页 面 ，Amazon 都 提供 以 下 信息 : 


“ 购 闫 该 商品 的 顾客 还 购买 了 .2 





当 人 们 购买 两 个 商品 时 ， 在 这 些 丙 品 之 间 束 形成 了 关联 。 人 们 购 
买 相 同 的 商品 越 多 ， 这 些 商 品 之 间 的 天 联 束 越 强 ， 同 时 购买 相同 两 品 
的 概率 也 就 越 大 。 虽 然 通常 情况 下 十 用 市 点 来 表示 人 ， 但 是 在 这 个 案 
例 中 ，Amazon 的 顾客 是 用 网 络 中 的 连接 表示 ， 而 他 们 购买 的 商品 是 用 
万 点 表示 。 因 此 ，Amazon 能 够 生成 一 个 网 络 ， 可 以 提供 其 顾客 选择 和 
偏好 的 显著 信息 ， 而 不 会 暴露 关于 顾客 的 任何 个 人 数据 。 该 网 络 揭示 
了 顾客 的 偏好 模式 ， 同 时 还 保留 了 其 隐私 性 。 只 需要 很 少 的 数据 挖 气 
和 一 些 数据 可 视 化 ， 我 们 就 可 以 对 Amazon 的 顾客 的 习惯 和 选择 有 很 深 
的 了 解 。 

















确定 特定 书籍 关联 的 网 络 


人 类 网 络 的 一 个 最 基本 的 规则 是 “ 物 以 类 来 ， 人 以 群 分 "。 朋友 的 
朋友 变 成 朋友 ， 同 事 的 同事 成 为 同事 。 在 整个 社交 圈 产 生 了 连接 的 紧 
密 聚 集 。 对 于 可 视 化 的 社交 网 络 ， 我 们 发 现 其 中 存在 “ 物 以 类 紊 ， 人 以 
群 分 "的 情况 。 











我 们 一 起 来 查看 Amazon 上 一 本 流行 的 计算 机 书籍 : Toby Segaran 
和 Jeff Hammerbacher 的 《数据 之 类 》。 除 了 其 他 信息 ， 该 书 的 Amazon 
网 页 提供 了 书籍 插 述 、 出 版 详细 信息 和 “同时 也 购买 了 ”书籍 的 清单 。 
这 个 清单 给 我 们 提供 了 关于 该 书 的 哪些 信息 ? 作为 一 个 网 络 方面 专业 
的 学 生 ， 我 对 该 书 的 好 奇 不 仅仅 在 于 该 页 面 的 “同时 也 购买 了 ”的 清单 
(作为 网 络 中 的 第 一 层 子 节 点 ) 。 我 想 知 道 如 果 我 点 击 清单 中 给 出 的 
每 个 书籍 的 链接 ， 并 将 新 页 面 中 的 “同时 也 购买 了 ”的 书籍 链接 添加 到 
一 个 网 络 中 ， 将 会 发 生 什么 情况 (作为 网 络 中 的 第 一 层 和 第 二 层 子 市 
im) °° 











对 网 络 的 动态 性 的 了 解 关键 在 于 能 够 感知 到 围绕 这 个 单个 节点 的 
连接 所 具有 的 关联 模式 ， 或 者 是 在 一 个 具有 相同 兴趣 的 社区 内 部 或 者 
周围 的 关联 模式 。 我 希望 能 够 弄 清 我 的 书籍 的 兴趣 点 所 产生 的 天 联网 
络 。 了 解 这 些 关 联 可 以 对 网 上 邻居 (围绕 该 书 的 网 络 ) 有 深入 的 理 
解 ， 它 可 以 帮助 顾客 做 出 更 明智 的 选择 。 
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们 的 网 上 和 邻居， 他 们 有 是 如 何 相互 关联 以 及 该 结构 可 能 如 何 影响 到 人 们 
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当 我 收集 了 《数据 之 美 》 的 “同时 也 购买 了 ”的 书籍 列表 ， 我 在 思 
考 : 


在 书籍 以 及 书籍 和 书籍 之 间 的 关联 中 ， 我 能 够 发 现 什么 主题 ? 
《数据 之 美 》 这 本 书 的 读者 还 对 其 他 什么 主题 感 兴趣 ? 


《数据 之 美 》 最 终 是 否 可 能 成 为 庞大 的 、 广 泛 关 联 的 聚 类 的 中 
心 ， 或 者 成 为 一 个 具有 其 中 茶 种 兴趣 的 一 个 独特 的 社区 的 一 部 分 ? 











图 7-9 显 示 了 与 《数据 之 美 > 这 本 书 相 关 的 书籍 所 连接 起 来 的 网 
络 。 每 个 节点 表示 顾客 在 Amazon 上 购买 的 一 本 书 。 通 过 一 条 灰色 线条 
把 顾客 所 购 闫 的 书籍 连接 在 一 起 ， 其 中 荫 头 指 网“ 同时 也 购买 了 ”的 书 
籍 。 红 色 市 点 表示 O'Reilly 出 版 社 出 版 的 其 他 书籍 ， 而 芙 色 市 点 表示 其 
他 出 版 社 出 版 的 书籍 。 


在 这 个 网 络 中 ， 一 本 书 的 优势 不 在 于 其 拥有 的 关联 的 数量 ， 而 在 
于 这 些 天 联 的 指 同 。 网 络 的 黄金 规则 和 房地产 是 相同 的 : 位置 、 位 











置 、 还 是 位 置 。 在 房地产 ， 真 正 重要 的 是 物理 位 置 : 地理 位 置 。 在 网 
络 中 ， 则 是 虚拟 位 置 ， 由 围 缉 世 点 的 连接 模式 决定 。 


图 7-9 的 市 护 通 过 连接 到 “同时 也 购买 了 ”的 书籍 ， 在 图 形 空 间 中 具 
有 了 目 组 织 性 。 这 种 特性 使 得 相似 的 书籍 可 以 目 组织 在 一 起 形成 相似 
主题 的 聚 类 ， 它 指示 了 在 这 些 书籍 聚 类 硝 后 的 兴趣 社区 。 在 图 7-9 中 ， 
两 个 分 组 很 明显 地 通过 主题 紧密 关联: 


:图 的 右 下 角 分 组 都 是 关于 程序 员 和 编程 。 
.图 上 方 的 分 组 是 天 于 语义 Web 。 


里 然 图 7-9 中 出 现 了 聚 类 ， 但 是 这 些 案 类 没有 我 们 将 要 看 到 的 聚 类 
那么 明显 ， 这 些 珍 类 之 间 相 互 混合 、 交 看， 尤其 古 那 些 天 于 现代 编程 
方法 和 过 程 的 书籍 。 


在 图 7-9 中 ， 除 了 相似 主题 的 素 类 ， 还 存在 关于 出 版 社 的 聚 类 ， 由 
彩色 市 点 表示 : 红色 书籍 连接 到 其 他 红色 书籍 ， 黄 色 书 籍 连接 到 其 他 
黄色 书籍 。 这 意味 着 喜欢 O'Reilly 出 版 社 书籍 的 人 们 倾向 于 购买 O'R 
eilly 出 版 社 的 书籍 。 在 太 护 尺寸 上 ， 大 小 相似 的 市 点 形成 弱 连 接 模 式 。 
尺寸 大 的 证 点， 在 图 表 中 不 受 局 部 影响 ， 连 接 到 其 他 尺寸 大 的 市 点 ， 
而 中 等 大 小 尺寸 和 小 尺寸 的 市 护 通 肖 相 互 连 接 。 这 是 我 们 在 人 类 网 络 
中 经 党 看 到 的 一 种 模式 一 一 “ 物 以 类 涌 ， 人 以 群 分 *。 虽然 我 们 看 到 的 
模式 并 不 是 Internet 的 物理 结构 ， 但 是 很 多 小 的 节操 连接 到 一 些 大 的 市 








上 护 上 ， 生 成 一 个 明显 的 星 形 模式 。 人 们 通常 把 该 模式 称 之 为 无 尺度 网 
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图 7-9: 《数据 之 美 》 一 书 的 “网 上 邻居 ”( 见 彩 图 56) 





下 一 步 ， 为 了 查看 哪个 市 点 在 连接 网 络 中 的 位 置 民 好 ， 我 检查 了 
每 个 方 点 /书籍 的 网 络 度量 。 因 为 这 是 一 个 有 向 网 络 ， 和 万 维 网 很 相 
似 ， 我 采用 类 似 Google 的 PageRank 来 计算 影响 指标 。 这 些 指标 是 通过 
同时 使 用 每 个 节点 的 有 问 和 无 向 连接 来 计算 的 。 正 如 在 Web 上 ， 连 毛 更 
重要 的 节 扣 产生 的 影响 也 越 大 。 这 些 衡 量 尺 度 并 不 能 说 明 销 售 量 或 者 
数量 所 能 表达 的 流行 度 ， 相反 地 ， 它 们 表达 的 是 成 王 上 万 的 Amazon 顾 
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了 哪个 市 点 在 网 络 中 发 挥 了 相似 的 作用 。 等 价 的 市 点 在 网 络 中 可 能 是 

相互 可 取代 的 。 作 为 一 个 作者 ， 我 不 布 望 目 己 的 书 能 够 被 很 多 其 他 书 

籍 所 苦 代 。 人 然而， 作为 一 名 读 普 ， 我 襄 欢 有 多 种 选择 。 在 图 7-9 中 ， 和 
《数据 之 美 》 一 书 的 连接 模式 最 相近 的 两 本 书籍 是 《 云 计算 架构 》 


( (Coud Application Architectures) 和 《Programming the Semantic 





Web) ° 
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些 书 评 可 能 分 布 很 不 均衡 : 一 个 拥有 庞大 的 个 人 社交 网 络 的 作者 ， 其 
在 Amazon 上 的 最 新 著作 能 够 快速 得 到 几 十 个 甚至 更 多 的 书评 ， 而 不 受 
欢迎 的 作者 可 能 刚好 相反 。 因 此 ， 仅 仅 基 于 读者 的 评价 来 购书 可 能 会 
产生 误导 作用 。 








一 本 书 的 网 络 图 比 起 读者 的 个 别 书评 可 能 更 能 说 明 应 该 购买 哪些 
其 他 书籍 。 连 接 到 很 多 其 他 相似 书籍 的 书 能 够 揭示 出 花 钱 购买 这 些 书 
的 读者 的 很 多 客观 性 选择 。 当 然 ， 购 买 这 种 行为 不 是 随机 的 ; 它 是 基 
于 思考 和 比较 所 做 出 的 决定 。 做 出 购买 决定 就 是 最 佳 的 评论 ， 即 使 它 
没有 写 一 个 字 书评 。 








我 给 出 的 书籍 网 络 图 是 为 了 请 除 网 络 中 的 不 相关 的 入 点 而 设计 的 
( 即 连接 度 很 低 的 节点 ) 。 图 7-9 所 示 的 网 络 图 显示 了 “3 核 网 络 ”， 其 中 
每 个 方 点 的 连接 度 至 少 为 3 的 网 络 。 为 了 达到 这 个 目标 ， 所 有 入 度 =1 或 
入 度 =2 的 连接 都 被 删除 。 这些 节点 生成 了 其 他 兴趣 社区 ， 它 们 表示 新 
书 或 者 非常 老 的 书籍 ， 或 者 包含 “3 核 网 络 ” 社 区 中 很 少 的 “同时 也 购买 
SPHERE ° 








EARMTAKKE 


这 些 兴 趣 社 区 地 图 通过 其 他 消费 商品 也 可 以 在 相似 的 范围 内 工 
作 。 如 有 果 我 对 一 项 产品 、 一 位 作者 、 一 名 忆 术 家 、 一 个 年 份 、 一 个 品 
牌 、 一 部 电影 或 者 一 首 歌 曲 不 熟悉 ， 我 布 望 能 够 通过 其 "同伴 ”一 一 它 
的 “网 络 邻居 ”来 判断 。 以 下 是 需要 问 的 天 于 该 入 点 的 一 些 相 关 问 题 : 


-什么 市 点 指 同 该 节点 ? 
' 它 属于 哪个 社区 ? 
' 它 在 社区 中 起 核心 作用 吗 ? 


' 它 在 社区 中 起 桥 染 作用 吗 ? 





看 起 来 ， 作 为 Amazon 的 顾客 ， 我 可 以 通过 碍 看 页 面 中 藤 入 的 信息 
来 做 出 更 明智 的 决定 一 一 网 络 内 部 的 “上下文 “一 一 Amazon 销 售 的 不 同 
的 兴趣 社区 的 各 种 商品 。 其 他 三 商 ， 比 如 Netflix 公 司 和 Apple 公 司 的 
iTunes， 可 能 在 推荐 一 部 电影 或 者 一 下 新 歌 或 者 一 名 新 忆 术 家 之 前 也 
做 类 似 的 分 析 。 通 过 收集 成 十 上 万 的 顾客 信息 以 及 他 们 所 做 出 的 选择 
信息 ， 把 这 些 信息 组 织 起 来 ， 卖 家 就 可 以 形成 如 图 7-9 所 示 的 “产品 - 产 











品 ” 的 网 络 ， 甚 至 类 似 图 7-7 所 示 的 “人 -人 ”网 络 。 这 两 张 映射 图 都 表示 
了 可 能 的 影响 模式 ， 以 及 对 顾客 做 出 “购买 /出 租 /下 载 * 的 原因 。 


以 下 是 我 们 根据 Amazon 分 析 提 取 的 一 些 网 络 经 验 规则 : 





如 条 有 两 本 结构 相同 的 非 小 说 类 书籍 ， 你 阅读 了 其 中 一 本 后 ， 可 
能 不 会 急于 阅读 第 .二 本 ， 因 为 第 二 本 书 所 履 盖 的 信息 很 可 能 和 第 一 本 
书 相同 。 另 一 方面 ， 对 于 小 说 类 书籍 ， 你 可 能 希望 阅读 大 量 的 结构 相 
同 的 这 类 书籍 《对 于 这 些 网 络 * 惊 恢 片 "总 是 乐此不疲 ! ) 








.如 采 你 喜欢 A、B 和 C 三 本 书 ， 想 读 一 些 类 似 的 书籍 并 找到 哪些 书 
籍 同 时 连接 到 A、B 和 C。 你 只 能 通过 网 络 图 看 到 这 些 连接 ;无 法 在 
Amazon 的 单个 列表 中 看 到 它们 ， 除 非 你 打开 3 个 浏 充 郁 窗 口 ， 并 且 目 
已 比较 这 些 列表 





如果 你 想 阅 读 一 本 天 于 主题 x 的 书籍 ， 找 到 在 主题 的 书籍 案 类 
中 ， 网 络 影响 分 值 最 高 的 书籍 。 这 遵循 Google 的 PageRank 方 法 ， 而 且 
可 能 找到 一 本 口 口 相 传 、 优 秀 的 书籍 。 


-如 采 你 想 要 得 找 的 书籍 没有 现货 ， 那 么 可 以 找到 一 本 和 该 书 结构 
相同 的 其 他 书籍 。 这 些 书 将 提供 相似 的 内 容 ， 而 且 可 能 是 有 货 的 。 





一 本 书 的 作者 和 /或 评论 员 可 以 用 目 己 已 有 的 书籍 网 络 知 识 把 一 本 
书 放 到 网 络 中 的 茶 个 空 际 中 。 出 版 商 可 以 对 不 断 变化 的 书籍 网 络 进行 


评审 ， 这 些 书籍 网 络 可 能 会 周期 性 变化 来 适应 市 场 。 当 然 ，Amazon 依 
然 生 一 个 大 顾家: 它 拥 有 所 有 的 数据 ， 以 及 目前 尚未 利用 的 对 数据 进 
行 分 析 和 发 现 所 开发 的 丰富 的 应 用 。 








政治 书籍 的 社交 网 络 





对 Amazon 的 书籍 网 络 进行 可 视 化 不 仅 可 以 帮助 我 们 选择 购 严 哪些 
书籍 ， 而 且 还 为 我 们 在 特定 兴趣 领域 内 提供 对 更 深远 的 趋势 的 深刻 洞 
察 。 其 中 一 个 成 熟 的、 值得 探索 的 领域 是 政治 。Amazon 的 购买 模式 往 
往 反 映 了 全 国 范围 的 政治 信仰 和 选择 的 调查 绪 








如 霖 Amazon 报 告 相 同 的 顾客 经 常 购买 两 本 书 ， 那 这 两 本 书 束 是 有 
关联 的 。 在 通过 我 的 社交 网 络 分 析 软 件 InFlow 3.1. 中 对 “同时 也 购买 
了 ”的 数据 进行 填充 之 前 ， 我 不 会 对 下 点 进行 排列 或 看 色 。InFlow 软 件 
包 售 一 个 算法 ， 能 够 基于 每 个 节操 的 连接 对 市 点 的 布局 进行 排列 。 一 
旦 该 软件 找到 某 种 新 兴 模 式 ， 识 别 出 任 何 聚 类 ， 我 台 会 对 每 个 聚 类 的 
书籍 进行 审查 ， 然 后 观察 这 些 书籍 是 否 会 目 然 地 聚集 成 监 色 、 红 色 或 
紫色 〈 该 着 色 方 案 遵 从 2000 年 美国 总 统 竞 选 时 期 流行 的 “红色 表示 保守 
UK” BERTHAR IJE: Ae LAREN, HE 
用 于 描述 落 在 这 两 个 “派别 ”之 间 的 书籍 ) 。 





从 2003 年 开始 我 吏 一 直 从 事 政治 书 籍 的 购买 模式 的 社交 网 络 分 
析 。 不 出 所 料 ， 从 第 一 次 映射 ， 我 束 发 现 两 个 很 不 相同 的 政治 案 类 : 
红色 表示 那些 阅读 了 右倾 书籍 的 ， 而 蓝 色 表示 那些 阅读 了 左倾 书籍 
的 。 在 2003 年 所 做 的 网 络 分 析 中 ， 我 发 现 只 有 一 本 书 把 红色 和 蓝 色 案 








KERER o MEWS, AREF (What Went 
Wrong》， 如 图 7-10 所 示 。 
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图 7-10: 对 2003 年 的 政治 书籍 的 划分 ( 见 彩 图 57) 


2004 年 的 映射 图 ( 见 图 7-11) 是 在 2004 年 美国 总 统 竞 选 之 前 几 个 月 
构建 的 ， 有 几 本 书 把 这 两 个 聚 类 连接 在 一 起 。 同样 ， 至 少 对 于 销售 较 
TIBE, TAEZ BIRDE: 每 个 党 派 的 人 似乎 阅读 越 来 
越 多 文 持 他 们 现 有 的 思想 框架 的 书籍 。 这 并 不 是 说 没有 同时 阅读 红色 
和 监 色 书籍 的 读者 ， 但 是 这 样 的 读者 看 起 来 是 少数 。 我 只 查看 Amazon 
的 畅销 书籍 ， 通 利 情 况 下 也 会 查看 这 些 书籍 的 “同时 也 购买 了 ”的 书籍 
列表 ， 重 点 查看 最 频繁 和 紧密 联系 的 书籍 连接 (正如 人 人 网 络 中 的 强 
连接 ) 。 对 Amazon 数 据 的 更 深入 的 分 析 《如 果 Amazon 人 允许 的 话 ) 可 能 
会 揭示 出 红色 和 蓝 色 书籍 中 更 轮 更 不 频繁 的 连接 。 我 期 望 看 到 少 部 分 











AVA PN TIRE BERE FY BE TESA ATL > AFARA ETE T 
两 个 党 派 都 介绍 和 讨论 的 读 程 。 





我 使 用 2005 年 到 2007 年 的 Amazon 数 据 继续 创建 这 些 政治 书籍 映射 
图 ， 我 依然 还 是 得 到 同样 分 明 的 红色 / 蓝 色 划分 。 书 籍 会 随 着 时 间 变 
化 ， 但 是 全 局 的 网 络 模式 依然 保持 不 变 。 该 模式 连接 强度 如 何 ? 为 了 
对 这 个 问题 进行 测试 ， 我 对 自己 的 数据 收集 方法 进行 了 实验 一 一 连接 
度 强 的 模式 是 由 于 我 的 测量 方法 所 生成 的 结果 吗 ? 不 是 ! 不 考虑 数据 
收集 方法 ， 只 要 我 遵循 为 人 们 所 接受 的 实践 方法 一 一 比如 “滚雪球 式 抽 
样 ”( (sowball sampling)( (Hckathorn 1997) 一 一 其 结果 就 显示 了 强 连 
接 的 红色 和 蓝 色 聚 类 。 有 时 不 同 的 方法 会 导致 一 些 新 的 书籍 混入 其 
中 ， 但 是 全 局 模式 还 保持 稳定 。 出 现 的 政治 书籍 网 络 模式 对 于 数据 收 
集 方法 和 截断 并 不 敏感 ， 意 味 着 该 模式 是 强 模 式 ， 而 且 具 有 持久 性 。 
2008 年 ， 随 着 美国 总 统 大 选 的 临近 ， 我 决定 对 政治 网 络 捕获 若干 快 
照 。 随 着 大 选 日 越 来 越 近 ， 网 络 会 如 何 变化 ? 我 从 3 个 关键 时 刻 捕获 网 
络 : 
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图 7-11: 对 2004 年 政治 书籍 的 划分 ( 见 彩 图 58) 


-在 初 选 结束 时 。 


我 预计 红色 / 瘟 色 划分 还 会 持续 存在 ， 但 是 不 知道 在 总 统 选 举 过 程 
中 是 否 会 出 现 有 趣 的 模式 。 


在 2008 年 6 月 ， 在 初 选 确 定 各 个 政 尝 的 主 候选 人 后 ， 我 采用 了 尝 派 
政治 辩论 的 预测 模式 。 在 2008 年 1 月 的 Iowa 党 团 中 ， 奥 巴 马 表示 : “我 





们 不 是 一 个 由 红色 和 蓝 色 表示 的 州 的 集合 ， 我 们 是 美利坚 合众国 。” 而 
麦 凯 恩 宣传 其 紫色 表示 的 “独立 ”的 根源 。 但 是 书籍 数据 会 给 我 们 提供 
什么 信息 呢 ? 


图 7-12 是 在 2008 年 6 月 创建 的 。 作 为 一 个 小 实验 ， 我 增加 一 种 新 的 
BE: 浅 监 色 。 根 据 Amazon 的 销售 数据 ， 这 些 书 籍 和 其 他 监 色 和 表示 的 
聚 类 有 交集 。 但 是 查看 这 些 书 籍 的 标题 和 作者 ， 它 们 并 不 适合 普通 的 
监 色 主题 和 先前 迭代 的 监 色 市 点 。 在 该 时 间 上 后， 比 起 红色 表示 的 书籍 
读者 ， 流 行 的 保守 派 、 独 立 派 和 自由 派 都 和 蓝 色 表示 的 读者 有 更 多 的 
连接 。 只 有 Ge orge Will 把 红色 市 点 表示 的 人 们 和 美国 政治 界 的 其 他 人 
桥接 起 来 ， 而 “ 老 保 守 派 ?和 “新 保守 派 ” 之 间 存 在 分 裂 ， 其 中 比 起 “ 靳 保 
守 派 ”,“ 老 保守 派 ” 在 2008 年 夏天 立场 和 进步 派 更 一 致 。 
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图 7-12: 2008 年 6 月 的 政治 书籍 购买 模式 ( 见 彩 图 59) 


2008 年 8 月 ， 出 现 了 一 些 反 奥巴马 的 书籍 。 一 本 新 的 亲 奥 巴 马 的 
书 ， 奥 巴 马 自 己 作 序 ， 也 在 预 发 布 和 Amazon 中 销售 。 图 7-13 显 示 了 谁 
在 阅读 这 些 书 籍 。 那 本 杀 奥 巴 马 的 书 《Change We Can Believe In) , 是 
坚实 地 属于 蓝 色 聚 类 ， 表 示 已 经 购买 亲 奥 巴 马 书籍 的 人 们 也 会 购买 这 
本 书 。 相 似 地 ， 反 奥巴马 的 书籍 
Case Against Barack Obama)) 一 -也 主要 是 那些 已 经 购买 了 反 奥 巴 马 书 
籍 的 人 们 所 购买 。 然 而 ， 其 中 一 本 反 奥 巴 马 的 书籍 和 紫色 聚 类 中 的 其 








«The Obama Nation) #1 «The 








中 一 本 《The Late Great USA) ERE ° FI BB HERNAN IER, X 
当前 国家 现状 不 满 ， 一 直 在 阅读 该 书 来 确定 对 奥巴马 的 看 法 吗 ? 














对 于 麦 凯 恩 ， 无 论 是 文 持 还 古 反 对 ， 痢 没有 相关 书籍 列 于 Amazon 
的 最 畅销 政治 论战 书籍 之 列 。 人 们 有 是否 在 选举 过 程 中 对 他 已 经 有 足够 
多 的 了 解 ， 还 是 人 们 对 他 不 感 兴趣 ? 图 7-13 所 示 的 书籍 之 间 的 连接 模式 
映射 独 说 明了 在 2008 年 夏 来 最 有 影响 力 的 政治 书籍 羡 4《What 
Happened》 和 《The Post American World》 一 一 都 没有 提 到 当前 的 选 
举 ! 《What Happened》 是 由 布什 的 前 新 闻 秘书 写 的， 但 只 有 监 色 聚 类 
PA Se WA SEE 
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图 7-13: 2008 年 8 月 的 政治 书籍 购买 模式 ( 见 彩 图 60) 


社交 网络 分 析 和 数据 挖掘 /可 视 化 为 我 们 提供 两 类 成 果 : 


-预期 的 和 未 预期 的 结 有 末 和 观点 。 


正面 和 负面 的 结 末 和 观点 。 


这 两 个 分 类 存在 交集 ， 如 图 7-14 所 示 “。 在 参与 的 数 百 个 社区 网 络 分 
析 项 目 中 ， 我 发 现 客 性 通常 最 喜欢 观看 他 们 没有 料想 到 的 结 AR 
预期 (尤其 是 负面 未 预期 ) 模式 ， 而 且 这 些 模式 会 引发 一 些 问 题 。 








正面 未 预期 


负面 未 预期 





图 7-14: 社交 网 络 分 析 的 “发 现 和 矩阵”( 见 彩 图 61) 








使 用 图 7-14 的 发 现 矩 阵 ， 我 们 一 起 来 查看 最 后 一 张 图 。 在 2008 年 10 
月 底 ， 随 着 总 统 竞选 逐渐 接近 尾声 ， 我 又 查看 了 一 下 人 们 购买 的 政治 
书籍 以 及 生成 的 模式 。 图 7-15 显 示 了 预选 网 络 图 。 在 该 图 中 出 现 了 一 些 
未 预期 的 模式 ， 以 及 一 个 预期 模式 。 
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图 7-15: 在 2008 年 11 月 竞选 前 几 周 的 政治 书籍 购买 模式 ( 见 彩 图 62) 


和 之 前 所 有 的 映射 图 不 同 ， 在 红色 聚 类 和 监 色 聚 类 之 间 不 存在 把 
它们 桥接 起 来 的 书籍 个 聚 类 十 完全 分 开 ! TERRA 
类 没有 任何 共同 之 处 ! 这 种 模式 体现 了 两 极 分 化 之 间 存 在 的 鸿沟 ， 以 
及 在 竞选 活动 过 程 中 表现 出 的 深 深 的 敌意 。 没 有 讨论 到 政治 问题 和 大 
经 济 问题 。 这 种 模式 可 以 归 类 为 基于 每 个 范 选 活动 的 日 前 行为 的 负面 
预期 模式 。 











图 7-15 所 示 的 可 视 化 还 说 明了 右倾 读者 一 直 购 买 社 区 组 织 者 的 重要 
书籍 《Rules for Radicals) ° 而 该 读者 群 曾经 嘲笑 社区 组 织 ! 为 什么 右 
倾 读者 会 购买 这 本 通 芝 只 受 左 倾 读 者 欢迎 的 书 ? 是 否 是 右倾 读者 试图 
找 出 为 什么 奥巴马 的 竞选 活动 基于 社区 组 织 原 则 能 够 如 此 成 功 ? 这 是 
一 个 未 预期 模式 ， 而 该 模式 应 该 归属 于 正面 还 是 负面 模式 取决 于 你 站 
在 哪 一 边 。 
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连 。 该 模式 可 能 说 明 这 些 读 者 只 对 奥巴马 和 本 届 竞 选 感 兴趣 ， 而 不 是 
一 般 的 政治 问题 。 


从 本 届 预 选 政 治 书籍 网 络 图 中 还 发 现 一 个 预期 模式 。 从 2004 年 开 
始 ， 注 册 的 民主 党 人 要 多 于 共和 党 人 ， 因 此 直观 感觉 是 存在 更 多 的 蓝 
色 书 籍 。 相 反 地 ， 石 派 专 注 于 更 少 的 书籍 来 宜 传 其 消 筷 (书籍 网 络 图 
并 不 能 反映 销售 的 书籍 的 数量 ， 因 此 有 可 能 是 右派 读者 实际 上 购买 了 
更 多 数量 的 书籍 一 一 我 们 无 法 知道 ， 因 为 Amazon 没 有 给 出 这 些 数 
据 。) 这 可 能 可 以 看 做 两 个 党 派 的 正面 预期 模式 ， 但 是 原因 不 同 。 碳 
派 可 能 理解 为 其 方法 更 集中 ， 而 左派 可 能 理解 相反 ， 认 为 缺乏 不 同 的 
观点 。 相 反 地 ， 左 派 可 能 正面 地 评价 其 书籍 种 类 的 多 样 化 ， 认 为 表示 
不 同 的 观点 ;而 右派 可 能 认为 它 表 示 信 息 分 散 不 集中 。 




















[3] : 参考 http: //orgnet.com/inflow3.html ° 


结束 语 


正如 本 章 所 给 出 的 可 视 化 所 示 ， 我 们 的 选择 掏 示 了 我 们 是 谁 以 及 
我 们 喜欢 谁 。 我 们 做 出 的 决定 不 仅 能 够 识别 我 们 的 一 些 方面 ， 而 且 能 
够 识别 出 我 们 属于 哪些 分 组 。 正 如 谚语 “ 物 以 类 案 ， 人 以 群 分 ”所 言 ， 
我 们 做 出 的 选择 可 以 帮助 我 们 理解 所 在 分 组 的 其 他 成 员 的 行为 。 在 将 
来 (比如 在 Web 上 ) ， 我 们 的 很 多 选择 可 能 不 是 有 意识 的 ， 我 们 的 智 
能 手机 可 能 可 以 和 附近 的 其 他 智能 设备 通信 ， 从 而 找 出 我 们 这 里 发 现 
的 模式 。 人 少数 大 胆 的 人 可 能 会 为 设备 编写 程序 ， 从 而 可 以 选择 性 地 破 
坏 他 们 所 暴 入 的 经 典 模式 一 一 举 个 例子 ， 当 两 个 人 的 设备 显示 他 们 可 
以 交流 时 ， 红 色 分 类 的 书籍 的 读者 可 能 会 和 监 色 分 类 的 读者 交谈 。 





Amazon 的 数据 表明 我 们 可 以 对 不 同 分 组 的 政治 选择 和 行为 有 更 深 
的 理解 ， 而 不 需要 知道 属于 这 些 分 组 的 任何 个 人 信息 。 不 需要 透露 任 
何 私 和 人 数据， 我 们 就 能 够 理解 基于 书籍 购买 的 大 规模 的 政治 模式 。 更 
让 人 惊奇 的 是 ， 这 些 数 据 和 用 于 显示 它 所 创建 的 简单 的 可 视 化 ， 与 代 
价 很 高 的 全 国 范围 的 选民 调查 一 致 。 花 费 一 个 小 时 对 Amazon 数 据 的 收 
集 和 映射 能 够 使 我 们 获得 一 些 和 花费 数 千 小 时 收集 和 分 析 选 民 调查 和 
采访 数据 一 样 的 洞察 。Pareto 的 “80/20 法 则 ”上 在 此 很 适用 : 我 们 获得 
了 80% 的 洞察 ， 而 化 费 的 时 间 远 远 少 于 20% 一 一 合理 结合 数据 挖 气 和 
数据 可 视 化 的 高 回报 ! 








[1] 80/20 法 则 ， 又 称 由 票 托 法 则 ， 指 的 是 在 众多 现象 中 ，80% 的 结果 取 
决 于 20% 的 原因 。 更 多 详 见 


http: //en.wikipedia.org/wiki/Pareto_principle ° 
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第 8 章 ”美国 参议 院 社 交 图 (1991~2009) 的 可 视 
4¥, Andrew Odewahn 


2009 年 初 ， 很 多 新 闻 报 道 都 在 关注 两 党 合作 的 弊端 。 尽 管 绝 大 多 
数 报道 只 是 典型 的 "人 云 亦 云 ” 之 类 的 文章 ， 其 中 一 篇 文章 引起 了 我 的 
特别 注意 。《Slate》 灯 志 的 副 主编 Chris Wilson 发 表 了 一 篇 伟大 的 文 
章 ， 在 这 篇 文章 中 ， 他 使 用 了 对 亲 和 性 数据 进行 投票 和 图 形 可 视 化 的 
方式 来 帮助 说 明 参 议员 Arlen Specter 的 “ 换 党 ”事件 ( (Wilson 2009) ° 
图 表 显 示 了 两 个 大 的 党 派 聚 类 (民主 党 用 蓝 色 表 示 ， 共 和 党 用 红色 表 

示 ) ， 两 个 党 派 之 间 通 过 几 条 细 线 连接 ， 这 些 细 线 代表 了 一 贯 跨 党 派 


投票 的 一 些 参 议员 。Specter 正 是 这 些 参 议员 中 的 一 位 。 








这 篇 文章 让 我 想到 了 如 下 几 上 点: 第 一 ， 通 过 定量 的 证 据 来 说 明 本 
质 上 定性 的 事情 真 的 很 酷 。 可 以 一 目 了 然 的 是 ， 参 议员 Specter 号 上 正 
发 生 一 些 有 趣 的 事情 ， 预 示 着 他 正在 背离 原来 所 在 的 沉 派 。 这 件 事情 
使 我 对 于 新 闻 报 道中 的 其 他 事件 是 否 也 存在 类 似 的 证 据 感 到 很 好 奇 。 
举 个 例子 ， 很 多 报道 聚焦 于 各 种 参议 院 联盟 (“十 四 人 帮 *( (Gng of 
Fourteen)、“ 新 英格兰 温和 派 *( (Nw England Moderates) 和 “南方 共和 
派 *( (Suthern Republicans)) 以 及 他 们 如 何 力 挺 或 阻挠 此 提议 或 彼 倡 
议 。 














基础 公民 学 知识 会 使 你 相信 参议 院 和 众议院 不 同 ， 国 家 创始 人 设 
计 它 的 目标 正 是 为 了 抑制 类 似 上 述 情况 的 联盟 。 这 古 一 个 位 单 的 机 
H: 总 共 100 个 参议 员 ， 每 个 州 每 6 年 选举 两 个 参议 员 作 为 代表 。 各 个 
州 的 选举 交错 举行 ， 因 此 大 约 每 两 年 会 对 三 分 之 一 的 议员 重新 选举 一 
次 ， 这 意味 着 参议 院 联 盟 会 发 生变 化 ， 但 变化 不 会 太 剧烈 。 昌 然 可 能 
发 生 参 议员 们 更 换 党 派 、 退 休 甚 至 在 任期 间 去 世 ， 这 些 事 件 发 生 的 概 
率 很 低 。 最 后 ， 任 期 本 号 束 为 参议 员 带 来 很 大 优势 。 一 旦 任职 ， 现 任 
参议 员 们 很 少 会 因为 投票 补办 免 。 





我 对 目 己 是否 能 够 使 用 图 形 可 视 化 来 描绘 出 一 幅 广阔 的 图 像 感 到 
好 奇 ， 通 过 这 个 图 像 可 以 显示 参议 院 的 组 织 结构 随时 间 的 动态 变化 情 
况 。 如 果 关 于 “高 校 故 事 ” 是 事实 的 话 ， 即 参议 院 本 质 上 是 一 个 保守 的 
团体 ， 通 俗 地 说 束 是 倾向 于 排 不 改变 ， 那 么 这 个 图 形 应 该 会 保持 相对 
稳定 。 如 果 不 是 事实 ， 那 么 可 视 化 展现 很 可 能 使 人 们 对 2009 年 发 生 的 
塑造 了 美国 的 一 些 难 以 置信 的 重要 事件 以 及 记者 们 报道 这 些 事件 的 方 
式 产 生 一 些 深刻 的 见解 。 在 本 章 中 ， 我 将 介绍 如 何 应 用 投票 数据 对 这 
些 问题 进行 可 视 化 探索 。 首 先 ， 介 绍 生 成 可 视 化 所 需 的 基本 步 又 。 
次 ， 展 示 最 终结 有 末 ， 讨 论 在 我 所 研究 的 时 间 跨 度 为 18 年 的 期 间 内 图 像 
征 如 何 变动 的 ， 并 提供 一 些 历 史 育 景 信 息 ， 对 参议 院 的 “高 中 公民 教 
育 ” 的 优点 的 观点 做 出 一 些 结论 。 在 此 之 后 ， 我 将 讨论 为 什么 该 可 视 化 
是 美丽 的 〈 而 不 仅仅 是 有 趣 的 ) ， 同 时 探讨 在 可 视 化 过 程 中 认 来 的 种 














种 缺点 。 最后， 我 将 分 皇 在 完成 这 个 可 视 化 过 程 之 中 领悟 到 的 一 些 收 
i, 希望 可 以 应 用 于 你 们 的 日 常 工作 之 中 。 


创建 可 视 化 


我 是 按照 Wilson 的 文章 中 给 出 的 可 视 化 基础 指南 开始 工作 的 : 








节点 代表 参议 员 ， 每 个 节点 有 一 个 数值 标签 ， 一 个 标签 对 应 一 个 
员 


参议 员 ， 参 议员 是 按照 字母 序 进行 排序 的 。 
' 玉 点 是 基于 其 对 应 的 参议 员 的 党 派 倾 问 进行 着 色 的 。 采 用 标准 规 


蓝 色 表示 民主 党 ， 红 色 表 示 共 和 党 。 (我 还 使 用 了 绿色 表示 独立 
党 ， 黄 色 表 示 原 始 数据 中 不 包含 的 党 派 。) 


.如果 两 个 参议 员 在 选 定 的 时 期 内 投票 相同 的 概率 超过 65%， 他 们 
所 对 应 的 两 个 让 点 就 通 过 一 条 边 连 接 起 来 。 





此 外 ， 我 决定 对 图 表 的 方 喇 进行 调整 ， 这 样 民主 党 议员 所 对 应 的 
TREA, WHAE ° AIh, ATRAN A TEENE 
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为 每 个 分 段 数据 创建 一 个 可 视 化 图 形 。 


我 选择 使 用 立法 会 会 期 作为 基本 的 时 间 单 元 。 一 个 立法 会 会 期 持 
续 两 年 ， 开 始 和 结束 时 间 都 是 1 月 3 日 ， 通 常 被 称 为 “国会 ”。 每 届 国 会 





都 按 序 进 行 连续 编号 。 比 如 ， 第 104 届 国会 历时 时 期 始 于 1995 年 1 月 3 
日 ， 终 于 1997 年 1 月 3 日 ， 第 105 届 国会 则 是 始 于 1997 年 1 月 3 日 ， 终 于 
1999 年 1 月 3 日 。 各 届 国 会 都 依 此 类 推 。 (在 写本 章 时 正 值 第 111 届 国会 
期 间 。) 


选用 会 期 作为 基本 单元 有 两 个 原因 。 第 一 ， 它 是 最 短 的 一 致 的 时 
间 段 。 参 议院 是 一 个 动态 团体 ， 其 成 员 在 任何 时 候 都 有 可 能 发 生变 
化 ， 尤 其 是 在 选举 年 份 ， 因 此 ， 如 有 果 使 用 超过 两 年 的 时 间 周 期 ， 会 因 
为 需要 根据 投票 记录 中 还 产生 新 的 参议 员 而 使 得 关系 混乱 。 第 二 ， 更 
显而易见 的 是 ， 这 个 时 间 周 期 正 是 报告 数据 的 周期 ， 因 此 这 有 是 一 个 非 
钊 方便 的 选择 。 











完成 这 些 初步 选择 之 后 ， 构 建 可 视 化 还 需要 3 个 步骤 : 收集 关于 参 
议员 以 其 投票 的 原始 数据 ;计算 描述 这 些 参议 员 的 关联 度 的 亲密 度 矩 
阵 ; 把 信息 输入 到 GraphViz (一 个 图 形 可 视 化 工具 包 ) ， 把 关系 图 形 
化 成 一 个 图 像 。 以 下 各 下 将 深入 描述 其 中 的 每 个 步骤 。 


收集 原始 数据 
我 的 可 视 化 需要 两 种 主要 类 型 的 数据 ， 关 于 个 别 参议 员 的 元 数据 


(QF > HIRE) ， 以 及 在 一 段 时 期 内 他 们 的 投票 记录 。 刚 开始 ， 由 
于 很 多 大 的 政府 数据 网 站 ( (dta.gov、thomas.com 等 ) 通过 订阅 发 布 消 
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被 发 表 ， 但 是 难以 及 时 追 蹊 完 整 的 投票 记录 ° 


幸运 的 是 ， 我 发 现 网 站 GovTrack(http: //govtrack.us)， 该 网 站 宣传 
目 己 为 “ 追 踩 国会 的 人 文 项 目 *”。 虽然 它 在 很 大 程度 上 提供 和 其 他 大 的 
政府 网 站 一 样 的 数据 ， 它 还 (除了 其 他 以 外 ) 通过 非常 有 意义 的 聚集 
函数 ， 将 订阅 的 信息 转换 成 追溯 到 1991 年 的 XML 文件 ， 部 分 数据 可 以 
用 于 预测 本 届 国 会 。 因 此 ， 我 的 项 目 包 含 第 102 届 国会 之 前 的 国会 的 所 
有 记录 ， 但 是 在 1991 年 前 的 数据 是 不 完整 的 。 你 可 以 免费 从 *Source 
Data”( 源 数据 ) 中 页 面 下 载 任意 或 所 有 的 数据 。 该 网 站 有 非常 好 的 
文档 说 明 ， 清 晰 地 描述 了 如 何 下 载 数据 及 其 结构 。 











在 GovIrack， 参 议员 的 元 数据 保存 在 文件 people.xml 中 。 在 这 个 站 
点 上 ， 该 文件 存在 两 种 版 本 : 当前 文件 ， 包 含 当前 正在 国会 就 职 的 工 
作 人 员 信 息 ; 历史 文件 ， 包 含 任 何曾 经 在 国会 殉职 的 人 员 信 息 。 在 这 
个 项 目 中 ， 我 使 用 的 是 历史 版 本 。 





在 这 两 个 文件 中 ， 关 于 个 别 参议 员 (或 众 议 员 ) 的 信息 显示 在 < 
person > 元 素 中 ; 每 个 人 有 一 个 唯一 D， 在 整个 GovTIrack 数 据 集中 ， 
一 个 人 的 ID 号 都 保持 一 致 。 关 于 和 党派 的 信息 是 保存 在 子 元 素 <role> 
中 。 举 个 例子 ， 以 下 是 John Kennedy 的 数据 项 ， 他 既是 众 议 员 又 是 参 





< person id='406274' 
lasthame='Kennedy'firstname='John'middlename='Fitzgerald' 
birthday='1917-05-29' > 

<role type='rep' 

startdate='1947-01-01'enddate='1948-12-31' 
party='Democrat'state="MA'district='11'/ > 

<role type='rep' 

startdate='1949-01-01'enddate='1950-12-31' 
party='Democrat'state='"MA'district='11'/ > 


< role type='sen' 
startdate='1959-01-01'enddate='1960-12-31' 
party='Democrat'state='MA'district="/ > 
</person > 


GovTrack 中 的 投票 数据 是 按照 两 年 的 了 并 法 会 议 组 织 的 。 投 票 时 根 
据 唱 票 来 记录 的 ， 即 当 参 议员 在 面临 的 一 个 问题 上 一 起 


投 “ 是 ”或 “ 否 *。 在 一 次 会 议 过 程 中 ， 通 闸 有 几 百 轮 唱 票 。 








GovTrack 把 每 一 轮 唱 票 以 XML 文 件 形式 记录 下 来 。 举 个 例子 ， 下 
面 这 个 列表 是 唱 票 文件 s1995-247.xml 的 一 段 摘录 ， 它 是 在 第 104 届 国会 
上 做 出 的 一 轮 投票 ， 决 定 是 否 由 允许 贝尔 公司 提供 交互 本 地 访问 和 传 
输 区 ( \LIA) 商 业 移动 服务 。 (其 中 一 些 投 票 非常 无 聊 。) 注意 ， 每 个 


<voter> 元 素 都 有 一 个 id， 该 id 可 以 重新 链接 到 people.xml 文 件 中 : 








<roll 

where="senate"session="104"year="1995"roll="247" 
when="802710180"datetime="1995-06-09T11: 03: 00-04: 00" 
updated="2008-12-30T13: 34: 55-05: 00" 
aye="83"nay="4"nv="13"present="0" > 

< voter id="400566"vote="+"value="Yea"state="MN"/ > 

< voter id="300016"vote="-"value="Nay'"state="WV"/ > 

< voter id="400559"vote="-"value="Nay'state="WA"/ > 

< voter id="300011"vote="0"value="Not Voting"state="CA"/ > 
< voter id="400558"vote="0"value="Not Voting"state="GA"/ > 


这 些 文件 〈 历 史 “people" 文 件 和 所 有 的 不 同 种 类 的 唱 票 文件 ) 包 
含 我 想 要 的 所 有 数据 。 然 而 ，people.xml 文 件 有 6MB 多 的 数据 ， 整 个 
GovTrack 数 据 集中 有 儿 千 轮 唱 票 ， 我 硕 望 这 些 数据 能 够 以 更 便捷 的 格 
式 保存 。 因 此 ， 我 写 了 一 些 脚本 ， 只 抽取 可 视 化 需要 的 部 分 数据 ， 把 
它 保 存 到 SQLite 数 据 库 中 。 模 式 如 图 8-1 所 示 。 为 了 向 单 起 见 ， 我 把 一 
个 党 派 基于 最 近 的 <role> 进行 赋值 ， 后 来 回想 时 对 该 决定 一 直觉 得 
比较 纠结 。 


roll 


senator_id 
vote 





8-1: 表示 可 视 化 所 和 需 的 原始 数据 的 简单 的 数据 库 模 式 
[1] 在 这 里 ， 需 要 说 明 的 一 点 是 ,“ 图 表 ” 指 的 是 一 些 市 点 和 边 的 集合 ， 
而 不 是 以 (xy) 坐标 表示 的 数据 点 绘图 。 
[2]: 参见 http: //dit.ly/4iZib ° 


计算 投票 闲 和 性 矩阵 


随 着 原始 数据 被 熔 合成 更 灵活 的 格式 ， 我 已 经 准备 好 计算 亲 和 性 
和 矩阵 的 问题 ， 亲 和 性 可 以 表示 图 中 的 各 条 边 。 这 需要 构建 一 个 亲 和 人 性 
矩阵， 如 岁 8-2 所 示 ， 它 可 以 计算 不 同 参议 员 做 出 相同 选票 的 次 数 。 我 
可 以 使 用 该 矩阵 来 替代 边界 条 件 。 


参议 员 B 


参议 员 4 





图 8-2: 杀 和 性 矩阵 


以 下 伪 代 码 说 明了 基本 逻辑 : 


#Select all distinct roll calls from the vote table 
roll_list= 

select 

distinct roll 

from 

votes 

#Process each roll call vote in roll_list 

for roll_idx in roll_list: 
#Process" Yea" votes,then"Nay"votes 

for vote_idx in["Yea", "Nay"]: 

#Find the senators that cast this vote on this roll call 
same_vote_list= 

select 

senator_id 

from 

votes 

where 

roll=roll_idx and 

vote=vote_idx 

#Now tally all the pairs of senators in the list 

for senator_a in same_vote_list: 

for senator_b in same_vote_list: 
affinity_matrix[senator_a,senator_b]+=1 
affinity_matrix[senator_b,senator_a]+=1 

#Translate the raw matrix into edges 
N=length(roll_list)}#Represents the number of votes in the session 
for senator_a in affinity_matrix.rows: 

for senator_b in affinity_matrix.columns: 
if(affinity_matrix[senator_a,senator_b]/N ) >0.65 then: 
add an edge between Senator A and Senator B 


因为 这 是 一 个 相当 密集 的 运算 集 ， 我 把 结果 保存 在 数据 库 中 的 另 
= 


使 用 GraphViz 对 数据 可 视 化 





最 后 一 步 是 把 所 有 这 些 数据 一 参议 员 的 元 数据 和 投票 记录 一 
转化 成 一 系列 图 片 。GraphViz(http: /www.graphviz.org) 是 一 个 开源 的 
图 形 可 视 化 包 ， 是 适合 该 工作 的 理想 工具 。 








图 形 可 视 化 是 对 各 种 不 同 的 布局 算法 的 研究 ， 这 些 算法 对 图 形 中 
的 市 点 和 边 进 行 抽象 表示 ， 并 转化 成 一 张 图 片 。 我 使 用 GraphViz 
的 “neato” 布 局 算法 1 ， 其 工作 方式 是 通过 把 节点 模拟 成 带 正 电 的 粒 
子 ， 把 边 模 拟 成 张力 。 市 点 互 不 ， 而 边 把 关联 的 广 扩 拉 到 一 起 。 刚 开 
始 ， 所 有 的 点 都 是 随机 置 于 一 个 平面 上 ， 算 法 模拟 推力 和 拉力 这 些 
制衡 来 为 每 个 节点 计算 最 终 表 示 “ 最 佳 ” 全 局 布局 的 x 坐 标 和 y 坐 标 (由 
于 这 个 原因 ， 这 样 的 算法 被 称 为 " 力 导 癌 布 局 "( (frce-directed layout) 算 
法 。) 。 图 8-3 说 明了 该 布局 算法 的 思想 。 





图 8-3: Neato,GraphViz FAA Sal ia Rik, FED ABS ac EEAS 
粒子 ， 边 表示 成 张力 


从 该 过 程 产 生 的 结构 和 基础 数据 的 连接 密度 成 正比 。 因 此 ， 一 组 
紧密 连接 的 参议 员 应 该 创建 一 个 子 聚 类 ， 该 子 聚 类 排斥 其 他 子 聚 类 。 
男 外 值得 一 提 的 是 ， 因 为 子 罕 类 控制 边 是 否 存 在 ， 基 于 选票 亲 和 性 分 
配给 边 的 临界 值 决定 了 图 中 观察 到 的 聚 类 的 程度 。 一 个 非常 低 的 值 
(如 20%) 将 会 导致 相对 较 少 的 子 结构 ， 因 为 一 个 会 议 上 的 很 多 选票 通 
常 都 是 例 行 事项 ， 绝 大 多 数 参议 员 都 会 同意 。 相 反 地 ， 一 个 很 高 的 值 
(比如 95%) 将 会 导致 生成 碎片 很 多 的 图 形 ， 因 为 只 有 强 连 接 的 节点 对 
才 会 出 现 ; 该 图 看 起 来 融 像 一 个 偶尔 连接 的 随机 点 集合 。I 临 界 值 65% 看 
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一 种 称 为 DOT 的 语言 描述 了 GraphViz 的 节点 和 边 。DOT 是 直 堆 了 
当 的 : 使 用 唯一 标签 表示 节点 ， 边 是 通过 使 用 ~ 标识 符 连接 两 个 或 者 
更 多 的 节点 标签 来 表示 的 。 各 种 不 同 的 其 他 属性 (BIE. ES) 是 
通过 把 它们 放置 在 其 修改 的 对 象 的 方 括号 中 来 定义 的 。 





以 下 是 DOT 文 件 的 一 个 例子 ( (Gnsner、Koutsofios 和 North 
2006) : 


digraph G{ 

alshape=polygon,sides=5, peripheries=3, color=lightblue,style=filled]; 
c[shape=polygon,sides=4, skew=.4, label="helloworld"] 
d[shape=invtriangle]; 

e[shape=polygon,sides=4, distortion=.7]; 








hello world 


图 8-4: GraphViz 生 成 的 样本 图 片 


因此 ， 为 了 对 参议 院 数 据 创建 可 视 化 ， 我 需要 创建 一 个 DOT 文 
件 ， 作 为 GraphViz 软 件 的 输入 。 这 需要 实现 男 一 个 脚本 ， 对 所 有 信息 进 
行 打包 ， 保 存 到 之 前 创建 的 数据 库 中 一 一 参议 员 ID、 按 字母 序 排列 的 
标签 列表 、 基 于 和 党派 的 斑点 色彩 以 及 杀 和 性 矩 孟 中 的 边 一 一 然后 把 这 








些 数 据 传 给 模板 引擎 ， 该 引擎 会 生成 一 个 DOT 文 件 来 表示 。 以 下 是 模 
板 : 


1 Digraph{ 

2 

3#for$senator in$vote_data.nodes: 
A4$senator['id'][ 

5 shape="circle" , 

6 style="filled" ， 

7 color=$senator['color'], 

8 label="$senator['label']" 

9 fontsize="128" , 

10 fontname="Arial" , 

11]; 

12#end for 

13 

14#for$e in$vote_data.edges: 
15"$e['senator_a']"- > "$e['senator_b']"[arrowhead=none]; 
16#end for 

17} 





需要 注意 的 是 ， 第 3 行 和 第 14 行 的 for 循 环 是 用 于 对 节点 和 边 重 复 进 
行 循 环 。 粗 体 显 示 的 是 在 每 次 迭代 中 会 被 取代 的 变量 。 





[1] 想 要 更 多 了 解 “neato” 布 局 算法 ， 可 以 通过 以 下 链接 下 载 其 文档 


http: //www.graphviz.org/Documentation/neatoguide.pdf ° 


产生 的 故事 


一 旦 我 把 所 有 需要 的 脚本 拼接 起 来 并 把 它们 转化 成 图 像 ， 束 会 产 
生 一 个 和 真实 情况 非常 一 致 的 故事 。 


图 8-5 显 示 的 是 第 102 届 参议 院 会 议 的 结构 图 ， 历 时 从 1991 年 1 月 3 日 
到 1993 年 1 月 3 日 。 在 这 届 会 议 中 ， 总 统 乔治 H.W. 布 什 在 第 一 年 任职 期 
间 ， 第 一 次 海湾 战争 爆发 ， 后 来 比尔 :克林顿 当选 总 统 (1992F, Æ 





会 议 中 途 ) 。 虽 然 出 现 了 两 个 显著 不 同 的 选票 分 块 ， 在 中 心 分 块 之 间 
存在 着 的 相当 程度 的 重合 ， 无 论 是 参议 员 的 数量 (在 中 部 地 区 的 节 
点 ) 还 是 边 (交叉 连接 的 数量 ) ， 都 是 显而易见 的 。 





图 8-5: 第 102 届 参议 院 会 议 的 结构 图 (历时 从 1991 年 1 月 3 日 到 1993 年 
1 月 3 日 ， 见 彩 图 63) 








图 8-6 显 示 了 第 104 届 参议 院 会 议 的 结构 图 ， 即 仅 两 年 后 。 该 结构 图 
(和 前 两 年 的 会 议 结构 图 ) 表示 “共和 党 革命 " (Rpublican 
Revolution)， 在 这 期 间 共和 党 在 近 40 年 来 首次 重新 村 回 众 议院 和 参议 院 
的 权力 。 这 一 时 期 党 派 天 系 非 党 紧张 ， 经 历 了 政府 被 解散 、 按 共和 
党 “和 美国 合约 "投票 以 及 在 俄 克 拉 谷 马 城 Murrah 联 邦 大 楼 爆炸 案 这 些 
事件 。 参 议院 的 可 视 化 岁 说 明了 和 党 派 之 间 存 在 很 深 的 分 改 ， 两 个 党 泊 
都 锁定 在 分 离 的 、 紧 密 的 小 轿子 中 。 














Al 8-6: 第 104 届 参议 院 会 议 结 构图 (从 1995 年 1 月 3 日 到 1997 年 1 月 3 
日 ， 见 彩 图 64) 








图 8-7 显 示 了 随后 六 届 会 议 的 可 视 化 图 形 组 合 。 





图 8-7: 从 第 105 届 到 110 届 参议 院 会 议 的 结构 图 (历时 从 1997 年 1 月 3 


日 到 2009 年 1 月 3 日 ， 见 彩 图 65) 


这 些 


这 些 会 议 期 间 发 生 的 一 些 事 件 和 明显 的 结构 变化 包括 : 


:第 105 届 会 议 〈1997 年 1 月 3 日 至 1999 年 1 月 3 日 ) 。 在 本 届 会 议 期 
间 ， 由 共和 党 控制 的 众议院 对 总 统 克 林 顿 表决 弹劾 。 注 意 民 主 党 中 出 
现 的 明显 的 分 裂 ， 在 那 段 时 期 ， 民 主 党 内 经 常 出 现 这 样 的 分 歧 


:第 106 届 会 议 〈1999 年 1 月 3 日 至 2001 年 1 月 3 日 ) 。 该 期 间 在 参议 院 
对 总 统 克林顿 弹劾 的 审判 。 虽 然 参议 院 和 众议院 相似 ， 也 是 由 共和 党 


控制 的 ， 参 议院 最 终 投票 无 徘 释放 。 有 趣 的 是 ， 共 和 和 党 在 本 届 会 议 期 


间 存 在 界限 分 明 的 重大 分 裂 ， 这 是 在 对 共和 党 进行 历时 18 年 的 调查 
HH, ZS EA Si er PAR Z — © 





:第 107 届 会 议 (2001 年 1 月 3 日 至 2003 年 1 月 3 日 ) 。 本 届 会 议 期 间 发 
ETSI REME (以 及 后 来 直接 针对 参议 院 本 身 的 疾 痊 热 袭 击 案 
CF) ; 伊拉克 战争 也 授权 通过 。 虽 然 在 民主 党 内 存在 很 小 的 分 裂 ， 其 
中 一 些 参议 院 趋 于 自由 党 ， 这 一 期 间 在 党 派 中 产生 了 一 股 新 生 的 力 
量 ， 不 同 党 派 之 间 的 连接 比 目 1991 年 以 来 的 任何 时 候 都 多 。 








:第 108 届 会 议 (2003 年 1 月 3 日 至 2005 年 1 月 3 日 ) 。 本 届 会 议 期 间 爆 
发 了 伊拉克 战争 。 本 届 会 议 几 乎 是 回 退 到 第 104 届 国会 ， 区 别 在 于 Ben 
Nelson(D,NE)#< 52 x 4H Olympia Snowe(ME), Susan Collins(ME) 和 
Norm Coleman(MN) 组 成 的 规模 很 小 的 温和 共和 和 党派 。 而 其 余 的 共和 党 
依然 保持 紧密 团结 ， 民 主 党 内 依然 存在 小 分 裂 。 





-第 109 届 会 议 (2005 年 1 月 3 日 至 2007 年 1 月 3 日 ) 。 共 和 党 的 多 灾 多 
难 时 期 一 一 Tom Delay 和 Jack Abramoff A., Terry Schiavo 案 例 的 决裂 
性 投票 ， 以 及 对 卡特 里 娜 刚 风 非常 糟糕 的 回应 (“你 干 的 什么 网 工 
Ye! ”( (Yu’re doin’a heckuva job,Brownie! ) ) 都 发 生 在 这 届 会 议 期 
间 。 尽 管 如 此 ， 共 和 和 党 的 参议 员 仍 然 非常 团结 。 相 反 地 ， 民 主 党 内 部 
继续 分 裂 ， 有 更 多 的 参议 员 转 向 小 的 、 自 由 派 团体 。 








.第 110 届 会 议 〈2007 年 1 月 3 日 至 2009 年 1 月 3 日 ) 。 民 主 党 在 这 届 会 
议 期 间 获 得 众议院 和 参议 院 的 控制 权 。 和 往届 会 议 不 同 ， 在 这 届 会 议 
期 间 ， 民 主 党 内 部 看 起 来 非常 统一 ， 而 共和 党 开始 分 裂 和 分 散 。 











虽然 岁 8-7 显 示 的 会 议 都 没有 显示 如 第 102 届 和 104 届 那样 两 党 派 之 
间 存 在 的 巨大 分 裂 ， 在 过 去 6 届 会 议 中 ， 在 一 个 或 两 个 ) 主 分 块 中 都 
存在 一 致 的 分 裂 模式 。 在 第 111 届 国会 的 最 初 6@ 个 月 中 〈 在 写本 节 时 ， 
会 议 还 正在 进行 ) 甚至 更 明显 地 延续 这 种 模式 。 如 图 8-8 所 示 ， 第 110 届 
会 议 的 民主 党 的 团结 使 得 两 党 分 块 几乎 达到 均匀。 共和 和 膏 显 示 了 其 组 
成 以 保守 派 为 核心 外围 是 分 歼 的 瘟 和 派 。 











因此 ， 看 起 来 数据 中 是 文 持 2009 年 夏 的 联盟 故事 的 。 实 际 上 ， 至 
少 从 1991 年 始 ， 参 议院 一 直 古 不 断 变化 的 地 方 ， 有 变化 的 联盟 、 莞 派 
甚至 是 决定 关键 决策 方向 的 个 人 。 








Al 8-8: 第 111 届 人 参议院 会 议 最 初 6 个 月 的 结构 图 (2009 年 1 月 3 日 到 
2009 年 7 月 1 日 ， 见 彩 图 66) 


当然 ， 回 想起 来 ， 这 几乎 算 不 上 什么 新闻 。 这 种 交替 联盟 模式 可 
能 又 回 到 了 最 初 的 美国 成 立时 期 ， 正 如 乔治 :华盛顿 在 1796 年 的 《告别 
演说 》 中 给 出 的 告 诚 ， 如 图 8-9 所 示 。 











图 8-9: 乔治 .华盛顿 的 1976 年 《告别 演说 》 (从 国会 图 书馆 的 珍藏 版 
和 特别 收藏 部 门 获 得 授权 使 用 中 ) 


以 下 证 我 们 的 首届 总 统 关 于 不 同 政党 形成 党 派 的 趋势 所 说 的 话 
: 遗憾 的 是 ， 这 种 精神 深 深 地 根 扎 在 人 类 心灵 的 激情 中 ， 和 我 们 的 本 
性 是 分 不 开 的 。 它 在 各 界 政府 中 以 不 同形 式 人 存在， 多 多 少 少 有 点 被 镇 
压 、 控 制 或 压制 ;但 是 它 以 流行 的 方式 ， 被 作为 第 一 优先 级 ， 而 确实 
也 是 政府 最 大 的 敌人 。 

一 个 党 派对 兄 一 个 党 派 的 交 奉 控制 ， 受 复仇 思想 所 激化 ， 和 党 派 纠 
SYR APR, TERE EAE FIRI SET, Sent PHA Se 
可 怕 的 专政 。 
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用 于 今天 。 因 此 ， 虽 然 2009 年 的 联盟 故事 可 能 还 比较 新 鲜 ， 其 最 基础 
的 模式 实际 上 已 经 久 经 考验 了 。 故 事 中 的 不 同人 物 来 来 去 去 ， 而 故事 
依然 是 同一 个 故事 。 





[1] : 参考 
http: //en.wikipedia.org/wiki/George_Washingtons_Farewell_Address ° 
[2] : 参考 http: //avalon.law.yale.edu/18th_century/washing.asp ° 


什么 使 它 美 丽 





当 编辑 请 我 参与 本 书 的 写作 时 ， 我 的 第 一 个 想法 束 古 “可 是 我 做 的 
图 太 丑 了 ! ”。 标 金 随 着 时 间 变 化 ， 有 时 显得 有 些 至 ， 并 且 划 分 先 派 的 
方式 明显 地 存在 一 些 不 准确 的 地 方 。 (我 很 快 将 会 详细 摘 述 一 些 决 入 
上 的 失误 。) 但 是 当 我 进一步 思考 这 些 问题 时 ， 我 确定 这 项 工作 中 做 
出 的 最 基础 的 决策 是 正确 的 ， 因 此 它 使 得 其 他 一 切 都 可 以 挽回 。 








选择 相关 参议 员 之 间 的 网 络 连接 作为 可 视 化 框架 是 创建 美丽 的 可 
视 化 的 关键 因素 。 可 能 查看 其 原因 的 最 佳 办 法 是 把 它 和 其 他 描述 进行 
比较 ， 它 们 描述 的 是 相同 的 事物 ， 只 是 以 不 同 的 方式 展示 而 已 。 考 虑 
图 8-10， 这 是 McCarty、Pole 和 Rosenthal (2008F) 给 出 的 党 派 指数 的 
时 间 序 列 图 。 








现在 ， 这 张 图 表 绝 对 没有 错误 ， 而 它 非 第 出 色 地 说 明了 在 20 世 纪 
70 年 代 中 期 保守 主义 在 共和 党 中 占据 重要 地 位 。 当 你 考虑 它 如 何 清 晰 
地 反映 了 尼克 松 总 统 的 “南方 策略 ”的 影响 ， 该 入 上 略 利 用 人 们 对 公民 权 
利 的 担心 ， 把 曾经 坚实 的 南 民 主攻 转变 成 共和 车 的 堡 垄 ， 你 束 会 发 现 
该 可 视 化 非常 有 趣 。 然 而 ， 虽 然 该 可 视 化 所 表达 的 意思 非常 清晰 ， 但 
征 它 没有 提供 任何 其 他 因素 引发 读者 共 叹 ， 因 而 需要 做 一 些 研 究 才能 
了 解 其 背后 的 故事 。 











该 可 视 化 和 社交 图 可 视 化 不 同 。 举 个 例子 ， 知 道 了 每 个 点 表示 
个 参议 员 ， 你 很 目 然 地 会 好 奇 : “那个 很 不 合群 的 人 是 谁 ? ”然后 欣喜 
地 发 现 ， 他 就 是 那个 “ 特 立 独行 "mvericky) 的 约翰 : 麦 凯 恩 。 在 这 个 可 
AMOR, MS AH: HOP WEEE AEH Ne tal A ARS, 
而 是 两 个 对 立 的 党 派 的 相互 竞争 ， 由 中 间 少 部 分 人 连接 起 来 ， 两 党 合 
作 在 第 104 届 国会 时 期 的 彻 砌 破裂 ， 双 方形 成 了 严实 的 自我 防护 ;根据 
每 个 党 派 成 员 在 不 同时 期 对 外 部 事件 做 出 的 反映 ， 可 以 发 现 其 党 派 分 
块 内 的 内 部 冲突 等 ， 这 些 发 现 部 很 止 人 惊奇 。 








众议院 1879~2008 年 
在 自由 一 保守 维度 上 的 两 党 制 
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图 8-10: 一 个 很 有 意思 但 不 是 特别 美丽 的 两 党 制 可 视 化 〈 见 彩 图 67) 





该 可 视 化 可 能 会 使 人 们 产生 共鸣 ， 这 也 是 其 美丽 ， 而 不 仅仅 是 有 
趣 的 原因 。 线 条 图 可 以 说 明 一 个 事实 ， 而 且 可 以 非 第 清晰 地 达到 这 个 
目的 ， 但 是 它 很 少 可 以 激发 你 去 参与 探索 更 多 的 信息 。 就 像 一 个 好 的 
故事 ， 美 丽 的 可 视 化 应 该 能 够 吸引 你 ，3 引 出 问题 ， 并 激励 你 去 探索 和 
发 现 。 





如 采 能 够 在 可 视 化 中 激 起 用 户 共鸣 ， 用 户 将 会 忽略 一 些 其 他 方面 
的 瑕 狐 。 而 我 的 可 视 化 激发 了 用 户 的 一 些 共鸣 。 





TAEA 





虽然 我 对 于 目 己 的 可 视 化 图 形 最 终 的 显示 效果 很 满意 ， 事 后 反 
轧 ， 还 是 有 些 方面 我 本 应 该 改 挥 。 绝 大 多 数 问 题 源 于 对 数据 做 了 太 多 
的 假设 ， 我 将 在 下 一 市 介绍 。 
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可 视 化 的 一 个 主要 目标 是 揭示 参议 员 之 间 的 全 局 结构 ， 而 不 是 透 
圳 具体 个 人 细 记 。 虽 然 有 时 知道 一 个 特定 节点 代表 谁 是 有 用 的 ， 例 
如 ， 当 一 个 节点 看 起 来 是 沉 派 之 则 的 中 心 “桥梁 ”或 连接 (比如 Olympia 
Snowe 或 Ben Nelson)， 或 者 偏离 任 一 党 派 、( 如 约翰 : 麦 凯 恩 ) 。 我 希望 
能 够 快速 识别 这 些 “ 有 趣 ” 的 节点 ， 而 依然 保持 专注 于 全 局 模式 。 我 采 
取 的 解决 方法 是 按 字 母 顺 序 给 每 个 参议 员 赋 予 一 个 标签 ， 然 后 在 相应 
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斑点 上 使 用 这 些 标签 











虽然 这 种 方法 对 于 个 别 国会 很 有 效 ， 它 无 法 保留 不 同 会 议 之 间 的 
连贯 性 。 为 了 碍 看 其 中 的 原因 ， 考 虑 表 8-1， 它 显示 在 历时 11 届 的 国会 
中 被 赋予 标签 1、50 和 100 的 参议 员 。 


表 8-1: 在 对 历时 11 届 的 国会 可 视 化 中 ， 标 签 为 1、50 和 100 的 参议 员 
国会 ( 届 ) 标签 1 标签 50 标签 100 
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理想 情况 下 ， 每 个 参议 员 在 他 出 现 的 所 有 图 形 中 的 标签 应 该 是 相 
同 的 。 然 而 ， 快 速 扫描 一 眼 以 上 这 个 表 ， 就 可 以 发 现 我 给 出 的 方法 在 
一 点 上 做 得 多 么 不 好 。 比 如 参议 员 Joseph Lieberman 从 1988 年 开始 一 
直 是 康涅狄格 州 的 参议 员 。 按 简单 的 字母 排序 ， 他 在 11 届 国会 可 视 化 
图 形 中 的 标签 分 别 是 50、54、59、65、66、73、76 和 77。 而 其 他 参议 
员 亦 是 如 此 ， 除 奥巴马 外 。 这 些 参 议员 绝 大 多 数 都 在 参议 院 中 任职 多 
届 ， 但 是 在 我 的 系统 中 ， 给 他 们 赋值 的 标签 却 是 非常 不 一 致 。 


更 好 的 系统 应 该 是 创建 一 个 列表 ， 代 表 在 历时 11 届 国会 中 的 所 有 
的 参议 员 ， 人 然后 基于 该 列表 对 每 个 参议 员 赋值 一 个 唯一 ID。 当 然 ， 其 
中 的 折 训 是 我 将 需要 100 个 以 上 标签 ,但 是 这 一 点 是 可 以 接受 的 ， 尤 其 
是 如 果 该 列表 是 按 每 个 参议 员 的 第 一 个 选举 年 而 不 是 字母 序 排序 。 另 
一 个 解决 方式 是 创建 一 个 动态 、 交 互 的 可 视 化 ， 其 中 〈 举 个 例子 ) 
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据 。 然 而 ， 由 于 我 是 为 了 打印 而 设计 的 可 视 化 ， 这 种 方法 对 于 我 来 说 
不 可 行 。 


Gre FE A] 


除了 给 参议 员 打 上 标 答 ， 我 硕 望 可视化 是 有 方 同 的 ， 这 样 民主 学 
显示 在 左 人 出 ， 共 和 和 党 显示 在 石 侧 。 按 照 既 定 习俗 ， 其 思想 是 一 致 的 标 
签 可 以 给 各 种 不 同 图 表 市 来 一 致 性 。 然 而， 事实 证 明 由 于 Neato 布 局 算 
法 的 本 质 原因 ， 该 策略 实施 很 困难 。 


前 面 描述 的 “ 力 导 网 ?过程 是 揭示 隐藏 在 抽象 独 形 内 的 复杂 结构 的 
很 好 的 方式 。 然 而 ， 因 为 它 依赖 于 特定 的 随机 性 ， 它 无 法 每 次 产生 相 
同 的 结 有 末 : 虽然 总 体 结构 是 相同 的 ， 旋 转 定 同 会 有 非常 大 的 区 别 。 举 
个 例子 ， 图 8-11 显 示 了 对 一 个 简单 图 形 的 3 种 不 同 、 但 等 效 的 布局 。 


Al 8-11: 对 于 相同 图 形 的 3 个 等 价 的 “ 力 导 同 ”布局 





最 后 ， 我 采取 的 办 法 是 打开 图 像 文 件 ， 手 工 对 它们 进行 旋转 。 吕 
然 这 种 临时 解决 方式 达到 了 期 望 的 旋转 定 同 ， 它 带 来 的 "副作用 ?是 也 
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初始 图 像 旋转 后 的 图 像 


图 8-12: 对 疼 形 布局 算法 中 的 原始 独 进 行 施 罗 ， 使 得 民主 党 在 左 侧 ， 
共和 党 在 右 侧 ， 其 结果 是 引起 标签 上 产生 一 些 “ 副 作用 ”( 见 彩 图 68) 





回想 起 来 ， 如 果 投 入 时 间 从 编程 上 解决 旋转 定向 问题 将 是 更 好 的 
策略 。 举 个 例子 ， 我 本 来 可 以 增加 一 个 步 又 来 计算 两 个 聚 类 之 间 的 质 
心 ， 然 后 计算 整个 图 形 绕 着 质心 的 旋转 角度 ， 这 样 可 以 生成 我 所 期 望 
的 旋转 定向 。 这 个 额外 的 步骤 在 后 面 的 运行 中 可 以 省 去 很 多 努力 ， 但 
征 在 当时 显得 有 点 矫 枉 过 正 。 
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Ja TERA CEH TT EER: 因为 参议 员 很 少 改 
变 沉 派 ， 可 以 假定 每 个 参议 员 最 近 的 党 派 关 系 对 于 所 有 图 形 都 适用 。 
在 我 的 可 视 化 中 ， 普 误 却 显 得 非常 醒目 。 





比如 ， 再 一 次 以 参议 员 Joseph Lieberman 为 例 ， 他 在 2006 年 民主 党 
选中 失利 给 反对 派 候选 人 Ned Lamont 后 变 成 无 党 派 。 以 下 是 他 的 个 
人 文件 信息 people.xml 条 日: 
< person id='300067'lastname='Lieberman'firstname="Joseph’...... > 
< role startdate='1989-01-01'enddate='1994-12-31'party='Democrat’...... /> 
< role startdate='1995-01-01'enddate='2000-12-31'party='Democrat'...... /> 


< role startdate='2001-01-01'enddate='2006-12-31'party='Democrat'...... /> 
< role startdate='2007-01-01'enddate='2012-12-31'party='"Independent’...... /> 


</person> 


正如 你 所 看 到 的 ， 参 议员 Lieberman 在 改变 他 的 党 派 之 前 18 年 一 直 
属于 民主 党 参议 员 。 然 而 ， 该 文件 的 最 后 一 条 信息 表明 他 是 无 党 派 ， 
因此 我 在 自己 的 ETL (抽取 、 和 转换 和 加 载 ， 过 程 中 认为 他 是 属于 无 党 
派 。 其 结果 是 在 第 102 届 到 109 届 的 国会 可 视 化 中 ， 他 一 直 被 (错误 
地 ) 显示 成 绿 点 ， 在 一 片 “浩瀚 的 * 蓝 色 显 示 的 民主 党 中 。 




















为 了 避免 这 个 问题 ， 在 设计 上 ，ETL 过 程 本 应 该 是 基于 GovTrack 
网 站 译 H 提供 的 数据 的 <role> 元 素 的 范围 来 检查 党 派 。 在 旋转 定向 
问题 上 ， 这 一 点 在 当时 看 起 来 似乎 是 不 必要 的 。 但 是 事后 回想 ， 它 可 
以 作为 对 不 熟悉 的 数据 作出 “简单 假设 ”的 前 车 之 鉴 。 











[1] GovTrack 网 站 记录 美国 国会 信息 ， 详 见 http: Wwww.govtrack.us/。 


结束 语 





我 将 分 至 儿 条 目 己 通过 该 项 目 积 宗 的 一 些 经 验 来 结束 本 草 ， 硕 望 
能 够 使 你 在 工作 中 有 所 受益 : 





做 好 准备 ， 伦 费 很 多 时 间 做 数据 整理 


当 我 发 现 GovTrack 网 站 时 ， 我 以 为 这 个 项 目 会 变 得 轻而易举 。 毕 
竞 ， 数 据 都 在 那里 了 ， 整 整齐 齐 地 以 XML 文件 格式 打包 。 然而， 实际 
上 把 这 些 原 始 数据 真正 转换 成 该 项 目 可 用 的 数据 格式 需要 很 长 一 段 时 
间 。 我 估计 花 在 该 项 目 上 有 80% 的 时 间 仅 仅 是 数据 转换 _ AH 
要 的 那 部 分 数据 ， 实 现 数据 库 装载 程序 和 模式 ， 编 写 脚本 计算 数据 的 
亲 和 性 矩阵 ， 这 些 花费 的 时 间 都 多 于 创建 DOT 模 板 时 间 。 这 显然 是 非 
常 普遍 的 现象 ， 因 此 如 果 你 发 现 自己 正 争 扎 于 处 理 项 目 中 的 数据 问 
题 ， 不 要 泄气 ， 看 起 来 这 是 一 个 必 不 可 少 的 过 程 。 
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尽 可 能 实现 自动 化 


当 你 第 一 次 处 理 数 据 时 ， 你 很 可 能 会 勿 匆 做 出 一 个 快速 但 龄 部 的 
解决 方案 。 所 以 ， 你 写 了 很 多 shell 脚 本 、SQL 语 句 ， 可 能 还 需要 在 
Excel 上 做 一 些 操 作 来 获得 你 期 望 的 结果 数据 。 如 采 你 100% 确 定 真 的 
只 使 用 一 次 数据 集 ， 这 么 做 是 合理 的 。 但 是 实际 情况 很 可 能 是 ， 如 果 
你 的 工作 是 成 功 或 有 趣 的 ， 你 很 可 能 想 回 过 头 来 做 些 修改 ， 重 现 它 或 





者 做 些 改进 。 而 当 发 生 这 样 的 情况 时 ， 你 会 发 现 自己 播报 脑袋 ， 自 付 
AP: “我 刚才 是 运行 什么 脚本 来 计算 呢 ? ”因此 ， 即 使 你 可 能 只 是 认 
为 你 做 的 是 一 次 性 的 可 快速 解决 的 项 目 ， 也 值得 伦 些 时 间 去 开发 目 动 
化 脚本 ， 并 写 一 些 最 基本 的 文档 。 将 来 你 会 因此 感谢 目 己 的 。 





仔细 想 清楚 你 将 如 何 表 示 时 间 








因为 人 们 往往 是 对 事情 在 过 去 如 何 发 生 了 变化 或 者 它们 在 未 来 将 
会 是 什么 样 感 兴趣 ， 一 定 要 想 清楚 你 将 在 可 视 化 中 如 何 表 示 时 间 。 有 
时 时 间 是 明确 表示 的 ， 如 图 8-10 中 的 时 间 序 列 ， 有 了 时 它们 是 在 背景 
体现 出 来 的 。 比 如 ， 在 该 项 目 中 ， 随 着 时 间 的 运动 效果 是 通过 屏幕 上 
的 图 像 变 换 来 表达 的 。 在 任何 情况 下 ， 正 如 在 电影 中 那样 ， 给 人 清晰 
的 、 通 过 时 间 推 进 的 感觉 将 会 使 你 的 作品 更 有 吸引 力 。 

















决定 什么 时 候 才 是 “足够 好 ” 


在 前 期 花 些 时 间 整 理 数据 以 免 后 期 遇 到 一 些 很 尴 粹 的 问题 ， 虽 然 
这 一 点 是 很 重要 的 ， 知 道 什 么 时 候 是 “足够 好 ”也 是 很 重要 的 。 除 非 你 
是 致力 于 一 个 真正 需要 完全 精确 性 的 系统 比如 喷气 飞机 的 平板 显 
示 ) ， 通 常 “ 早 发 布 、 常 发 布 " 是 更 好 的 。 向 别人 展示 你 的 工作 ， 得 到 
他 们 的 反应 ， 看 是 否 达到 你 所 期 望 的 答复 ， 然 后 不 断 达 代 。 











以 记者 的 方式 处 理 问题 





本 书 的 很 多 其 他 章节 都 提出 : 一 个 伟大 的 可 视 化 需要 讲述 一 个 故 
事 。 我 忌 体 上 持 赞 成 观点 。 然 而 ， 这 种 思想 的 本 质 是 创建 可 视 化 的 人 
们 古 故 事 秋 述 者 。 在 我 看 来 ， 那 个 人 束 像 戴 上 了 创造 故事 的 “ 魔 戒 ”， 
而 人 物 和 场景 适应 情 方 ， 完 善 这 个 故事 。 我 认为 “记者 ”十 更 贴切 的 比 
喻 ， 而 不 是 “故事 叙述 者 ”。 记 者 讲述 故事 ， 但 是 它 (理想 上 ) 是 一 个 
客观 的 故事 一 一 记者 的 目标 是 一 点 一 点 地 揭示 现实 ， 理 请 寓 乱 的 复杂 
性 ， 并 试 着 把 它们 编织 成 一 个 完整 的 画面 。 最 后 ， 你 的 可 视 化 中 的 故 
事 对 数据 中 基本 事实 的 “ 呈 实 度 " 是 真正 决定 美丽 的 根源 。 
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Bom SANA: 搜索 和 发 现 Todd Holloway 








搜索 和 发 现 是 信息 检索 的 两 种 方式 。 搜 索 是 一 种 众所周知 的 方 
式 ， 百 度 和 其 他 Web 搜 索引 擎 都 是 很 好 的 例子 。 虽然 搜索 引擎 也 包 合 
发 现 ， 但 是 还 有 一 些 更 为 直接 的 发 现 系 统 ， 比 如 Amazon 的 商品 推荐 和 
Netflix 的 电影 推荐 。 





这 两 种 检索 系统 的 共性 之 处 在 于 引擎 背后 提供 文 撑 的 系统 可 以 非 
常 复 沫 。 系 统 提 供 的 结 采 可 能 不 仅仅 依赖 于 查询 的 内 容 和 返回 的 结 
果 ， 而 且 依 赖 于 系统 用 户 的 集体 行为 。 举 个 例子 ， 你 在 Netflix 上 对 电 
影 进 行 评价 以 及 为 电影 提供 的 具体 评价 将 会 影响 到 系统 向 其 他 用 户 推 
存 哪些 电影 ; 而 在 Amazon， 顾 客 评价 、 购 买 一 本 书 ， 甚 至 驳回 购物 车 
添加 了 一 本 书 然后 又 删除 了 它 ， 都 会 影响 到 系统 给 其 他 用 户 的 推荐 。 
相似 地 ， 使 用 百度 时 ， 当 你 点 击 了 一 条 搜索 结果 ， 或 者 没有 点 击 某 条 
结 有 末 ， 这 些 行为 都 会 影响 到 以 后 的 搜索 结 





这 种 复 洒 性 的 一 个 后 果 是 系统 行为 变 得 难以 解释 。 我 们 主要 依赖 
于 性 能 指标 来 对 检索 结 采 的 成 功 或 失败 进行 量化 评 佑 ， 或 者 找 出 系统 
的 哪些 变化 比 其 他 的 效果 更 好 。 这 些 指标 可 以 使 系统 得 到 不 断 改 进 。 


理解 系统 行为 的 另 一 种 辅助 方法 是 使 用 信息 可 视 化 。 借 助 可 视 
化 ， 我 们 有 时 可 以 获取 单纯 根据 指标 所 无 法 获取 的 一 些 认识 。 在 本 


章 ， 我 将 介绍 一 个 实例 ， 借 助 特定 的 可 视 化 技术 为 系统 的 动态 特性 提 
供 一 些 宏观 视角 。 我 们 接 下 来 要 分 析 的 第 一 个 系统 是 一 个 搜索 引擎 ， 

YELLOWPAGES.COM ° 目标 是 获取 该 网 站 的 用 户 查 询 行为 的 乌 丁 

图 ”， 这 可 以 用 于 改进 系统 本 身 的 设计 。 我 们 要 查看 的 第 二 个 系统 是 根 
据 “Netflix 奖 ”数据 集 构建 的 电影 推荐 ，Netflix 举 办 的 一 百 万 美元 的 预 

测 模型 竞赛 最 近 刚 刚 结束 。 该 可 视 化 可 以 帮助 我 们 理解 基于 用 户 偏 好 
的 发 现 模型 所 存在 的 一 些 本 质问 题 。 





可 视 化 技术 


本 章 搬 述 的 技术 都 是 天 于 比较 相同 类 型 的 事物 项 一 一 如 第 一 个 例 
子 中 的 查询 以 及 第 二 个 例子 中 的 电影 。 其 前 提 很 简单 : 我 们 将 把 竺 比 
较 的 事物 项 放 在 页 面 上 ， 相 似 项 彼此 之 间 很 紧密 ， 而 不 相似 的 事物 项 
距离 很 远 。 这 个 前 提 假 设 是 基于 Gestalt 的 相似 度 原 则 ， 该 原则 认为 当 
两 个 事物 项 被 紧 紧 放置 在 一 起 时 ， 和 人们 往往 会 认为 它们 属于 同一 个 
组 。 








因此 ， 创 建 这 些 可 视 化 的 第 一 步 古 定义 清楚 是 什么 使 得 两 个 事物 
项 之 间 相 似 和 不 相似 。 它 可 以 是 任何 方面 。 在 前 文 的 Netflix 奖 的 例子 
中 ， 我 们 可 以 将 两 部 电影 的 相似 性 定义 为 用 户 的 评分 。 使 用 用 户 评分 
来 定义 相似 度 是 很 有 道理 的 ， 但 我 们 还 可 以 选择 如 风格 、 演 员 这 样 的 
电影 属性 来 定义 相似 度 。 





一 旦 定义 了 相似 度 ， 需 要 对 它们 进行 坐标 化 ， 把 这 些 相 似 度 值 转 
换 成 二 维 或 者 三 维 坐标 。 有 两 种 方式 可 以 实现 坐标 化 。 第 一 种 方式 是 
使 用 一 个 公式 ， 把 高 维 空间 映射 到 二 维 或 者 三 维 空间 。 男 一 种 方式 是 
把 各 个 事物 项 看 成 图 表 的 和 节点， 相似 的 和 点 通过 边 进行 连接 。 因 而 ， 
坐标 化 就是 试 着 把 连接 着 的 节点 放置 在 相 令 位置， 而 把 不 连接 的 节 扩 
放 鞋 在 不 相 邻 的 位 置 。 在 本 划 中 ， 我 们 将 使 用 后 一 种 基于 图 形 的 方 
法 ， 并 探讨 所 需要 的 特定 工具 和 算法 。 

















完成 坐标 化 以 后 一 一 也 殉 是 说 ， 在 给 事物 项 赋予 特定 的 坐标 值 之 
后 一 一 这 些 事物 项 的 表示 (在 后 面 两 个 例子 中 ， 采 用 的 是 简单 的 圆圈 
表示 ) 会 被 放置 到 坐标 系 的 相应 坐标 中 。 创 建 可 视 化 的 最 后 一 个 步骤 
包含 标签 放置 〈 这 一 点 相当 有 挑战 ) 以 及 做 出 各 种 各 样 的 其 他 分 析 。 





YELLOWPAGES.COM 


直到 最 近 ， 使 用 打印 版 的 电话 筹 找 人 和 查询 服务 仍然 司空 见 惯 。 
其 中 的 服务 部 分 被 称 为 “黄页 *( (Yllow Pages)。 在 这 些 黄页 上 ， 企 业 按 
类 别 进 行 分 组 并 按 字母 序 进行 排列 。 一 切 都 很 简单 。 


YELLOWPAGES.COM ( 见 图 9-1) ， 是 我 所 在 的 公司 ATS&T 的 一 
个 Web 站 点 ， 是 一 个 现代 化 企业 搜索 引擎， 其 最 基本 的 目标 和 打印 版 一 
致 。 很 明显 ， 它 虽然 是 在 线 版 本 的 ， 但 并 不 是 局 限于 只 能 通过 和 打印 
版 一 样 的 方式 分 类 和 字母 序 来 组 织 数 百 万 的 企业 。 
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图 9-1: YELLOWPAGES.COM: 一 个 本 地 企业 搜索 引擎 ( 见 彩 图 


69) 


事实 上 ， 设 计 或 改进 这 种 搜索 引擎 的 部 分 工作 涉及 理解 应 该 如 何 
为 一 个 给 定 的 查询 组 织 企业 列表 ， 以 及 在 该 组 织 中 应 该 包 售 哪些 企业 
特征 。 为 了 达到 这 个 目标 ， 查 看 用 户 的 行为 是 有 帮助 的 ， 因 为 该 行为 
可 以 对 我 们 的 直觉 做 出 验证 或 否定 。 


查询 日 志 





YELLOWPAGES.COM 保 留 了 在 网 站 上 执行 的 每 个 查询 日 志 ， 因 此 
它 可 以 使 用 这 些 数据 来 改进 服务 。 以 下 是 2008 年 12 月 的 查询 日 志 中 词 


频 最 高 的 5 个 查询 : 





1.Restaurants (41) 
2.Movie theaters (电影 院 ) 
3.Pizza (HER) 
4.Walmart[sic] (沃尔玛 ) 


5.Animal shelters (动物 收容 所 ) 





前 5 项 综合 了 “浏览 式 ” 碍 询 和 "搜索 式 ” 碍 询 ， 前 着 是 人 们 在 分 类 范 
围 内 进行 浏览 《如 餐馆 ) ， 后 者 是 人 们 搜索 特定 企业 (如 沃尔玛 ) 
我 们 将 使 用 日 志 中 的 查询 作为 可 视 化 的 “事项 *， 将 基于 用 户 执 行 这 些 
查询 的 行为 的 相似 度 来 对 这 些 事项 进行 坐标 化 。 通 过 这 种 方式 ， 我 们 
希望 能 够 对 系统 的 用 户 查 询 行为 有 个 大 致 的 理解 。 

















YELLOWPAGES.COM 的 查询 日 志 目 前 属于 ATST 公 司 的 财产 。 如 
果 你 想 查 看 主流 搜索 引 警 的 查询 日 志 的 内 容 ，AOL 公 司 已 经 在 公共 网 








站 上 放 了 一 份 2006 年 的 日 志 。 通 过 百度 搜索 “AOL query log”, HEAT LA 
找到 该 文件 的 最 近 的 镜像 ， 下 载 500M 的 日 志文 件 。 


分 类 相似 度 


正如 之 前 所 述 ， 我 们 希望 可 视 化 是 基于 实际 的 用 户 行为 。 举 个 例 
子 ， 我 们 认为 ， 如 果 一 个 用 户 输 入 一 个 查询 ， 如 果 该 用 户 之 前 已 经 输 
入 了 男 一 个 查询 ， 她 可 能 会 点 击 这 次 查询 结 采 中 和 之 前 的 查询 结 采 中 
的 相同 的 企业 页 面 ， 则 这 两 个 查询 殉 是 关联 的 。 但 是 ， 数 据 太 黎 中 
了 ， 以 致 无 法 在 实际 中 使 用 一 一 平均 来 说， 企业 集合 的 重 爱 度 非常 
小 。 为 了 解决 千 芒 性 ， 我 们 退 一 步 来 定义 查询 的 相似 性 : 如果 一 个 用 
户 输入 一 个 查询 ， 而 该 用 户 之 前 已 经 输入 了 男 一 个 查询 ， 她 可 能 会 点 
击 这 次 查询 结 采 中 和 之 前 相同 分 类 的 企业 页 面 ， 则 这 两 个 查询 束 是 相 
似 的 。 








可 视 化 作为 分 析 的 基础 





在 AT& IT 应 用 研究 所 ， 我 们 构建 了 很 多 工具 来 分 析 查 询 。 其 中 一 
个 工具 是 预测 模型 ， 它 试图 确定 一 个 查询 是 否 是 为 了 参考 一 个 特定 企 
业 的 信息 〈 如 Walgreens) 或 者 浏览 一 组 企业 信息 《如 药店 ) 。 我 们 可 以 
在 可 视 化 基础 上 应 用 这 些 预测 来 获得 “搜索 式 ” 和 *“ 浏 贤 式 ?查询 的 分 布 
的 总 体 概 咒 。 可 以 使 用 很 多 可 视 化 编码 来 显示 一 个 查询 属于 哪 一 种 。 
最 明显 的 一 种 ， 即 我 们 所 采取 的 方法 是 对 世上 总 进行 着 色 : 在 我 们 的 可 
视 化 中 ， 绿 色 市 点 表示 预测 认为 是 对 特定 业务 搜索 的 查询 ， 而 其 他 查 
询 则 是 用 黑色 节点 表示 。 可 能 会 存在 一 些 不 正确 的 节点 着色 ， 它 们 显 
示 的 是 该 特定 预测 模型 中 存在 的 误差 。 











图 9-2 用 绿色 市 点 显示 “Goodwill”* 和 “Salvation Army £W, HEX 
是 预测 上 认为 (而且 是 正确 的 ) 这 些 世 点 属于 对 特定 企业 的 查询 。 


goodwyl á salvation army 


9-2: 在 我 们 的 可 视 化 中 , “搜索 式 " 查 询 用 绿色 显示 ( 见 彩 图 70) 


可 视 化 


。 它 显示 了 从 2008 年 12 月 开始 查询 





图 9-3 显 示 了 最 终 的 可 视 化 结 
页 度 最 高 的 4600 条 查询 。 当 查看 这 种 类 型 的 可 视 化 时 ， 应 该 记 住 的 是 
它 没 有 坐标 轴 。 所 有 位 置 都 是 相对 的 一 一 相似 的 查询 毗邻 ， 而 不 相似 
条 查询 。 一 些 圆圈 的 上 面 标注 了 但 














的 查询 距离 较 远 。 每 个 圆圈 表示 
询 项 。 圆 轿 大 小 和 标签 大 小 都 是 基于 得 询 在 日 志 中 出 现 的 次 数 。 采 用 
这 种 方式 ， 可 以 使 得 频 演 的 得 询 在 该 可 视 化 中 可 以 “一 目 了 然 ”。 
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图 9-3: 在 YELLOWPAGES.COM 网 站 上 ， 查 询 频 度 最 高 的 4600 条 查 
询 ( 见 彩 图 71) 


人 


查看 图 9-3， 很 容易 识别 出 该 系统 最 经 党 被 使 用 的 领 


域 。“Restaurants” (ATE) 这 一 条 查询 “脱颖而出 >， 而 零售 商 
如 “WwWalmart” (沃尔玛 ) 和 “Best Buy” (AEX) 的 查询 也 很 频繁 。 对 
餐馆 和 零售 商 的 查询 很 频繁 可 能 不 足 为 奇 ， 因 为 YELLOWPAGES.COM 


re NAB LF 38 9 ZE o BY EAE HE DA UU eR TEX KBE IA 
含 社 区 相关 的 查询 ， 包 括 搜索 “公立 学 校 ”、“ 教 笔 ? 和 “公寓 ”。 





这 种 类 型 的 可 视 化 很 大 。 无 法 把 它 打印 在 一 页 纸 上 ; 显示 它 的 最 
佳 方式 或 者 是 把 它 作为 大 海报 进行 打印 ， 或 者 作为 在 计算 机 屏幕 上 可 
缩放 的 版 本 显示 。 为 了 使 可 视 化 可 缩放 ， 可 以 把 它 加 载 到 如 下 应 用 
中 ， 如 百度 地 图 、Gigapan 或 微软 的 Seadragon ° 








因为 这 个 可 视 化 将 要 被 收 系 到 一 本 书 中 ， 我 们 将 通过 对 一 些 特定 
方面 进行 放大 和 讨论 的 方式 来 进一步 审视 它 ， 并 获取 一 些 新 的 理解 。 


图 9-4 所 示 的 是 对 看 起 来 与 社区 较为 相关 的 企业 的 查询 集合 进行 放 
大 显示 。 看 到 像 该 可 视 化 这 样 对 真正 的 用 户 行为 的 描述 可 能 会 给 搜索 
引擎 工程 师 留 下 深刻 印象 ， 可 能 验证 了 他 对 系统 使 用 情况 所 持 有 的 观 
点 ， 或 者 给 他 带 来 惊喜 ， 甚 至 是 局 发 他 做 出 设计 上 的 一 些 变动 。 
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图 9-4: 图 9-3 中 的 一 个 聚 类 的 特写 图 ( 见 彩 图 72) 
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PERH 9-5 AT RRR ET PME Ss Te A, (Eee 
在 很 多 方面 值得 指出 。 注 意 对 GameStop 的 常见 但 不 相同 的 拼写 ， 人 们 
可 能 期 望 不 论 是 哪 一 种 拼写 ， 用 户 痢 可 以 对 搜索 结 采 做 出 相同 的 行 
为 ， 因 而 应 该 也 期 望 这 些 查 询 能 够 在 可 视 化 中 毗邻 显示 。 可 能 可 视 化 
中 最 有 趣 的 是 典当 行 相关 的 查询 与 书店 和 游戏 商店 相关 的 查询 的 相似 
度 。 用 户 做 出 什么 样 的 查询 和 点 击 行为 可 能 会 生成 这 种 模式 ? 
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图 9-5: 大 规模 的 兴趣 相关 的 商业 聚 类 〈 见 彩 图 73) 


这 种 可 视 化 技术 是 强大 的 ， 因 为 不 仅仅 是 单个 聚 类 内 的 相似 度 可 
以 帮助 我 们 提高 认识 ， 而 且 多 个 聚 类 之 间 的 相似 度 也 同样 可 以 加 深 理 
解 。 岁 9-6 中 存在 两 个 聚 类 ， 一 个 是 关于 零售 药店 ， 另 一 个 是 关于 酒 
店 ， 它 们 在 可 视 化 上 毗邻 。 这 意味 着 用 户 无 论 是 搜索 药店 还 是 酒店 
往往 会 点 击 相 似 的 企业 。 但 是 在 打印 版 的 电话 筹 中 ， 这 两 类 企业 分 别 

只 存在 于 两 种 不 同 的 分 类 内 部 ， 而 搜索 引擎 却 可 以 考虑 这 些 行为 的 关 
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图 9-6: 两 个 毗邻 的 集群 : 药店 和 酒店 ( 见 彩 图 74) 


这 种 可 视 化 技术 的 优 忠 所 


纵 观 了 其 中 一 种 可 视 化 ， 值 得 探讨 的 是 这 种 可 视 化 技术 的 优 缺 
点 。 其 最 大 的 优点 在 于 可 扩展 ， 而 且 是 完全 基于 算法 的 。 图 9-3 的 可 视 
化 显示 了 4600 个 事物 项 ， 但 是 该 算法 可 以 扩展 到 处 理 几 百 万 个 事物 
项 。 (显然 ,为 了 有 效 地 查看 几 百 万 个 事物 项 ， 需 要 有 一 个 可 以 平移 
和 缩放 的 界面 。) 








该 可 视 化 技术 的 另 一 个 优点 在 于 它 作 为 稳定 、 全 局 的 基础 乎 台 ， 
可 以 显示 其 他 分 析 ， 而 且 工 作 民 好 。 举 个 例子 ， 我 们 使 用 绿色 和 黑色 
来 区 分 “搜索 式 ” 和 “ 神 贤 式 ” 这 两 种 不 同 的 查询 。 我 们 可 以 很 容易 在 该 平 
台 上 应 用 任意 数量 的 其 他 分 析 。 可 能 显示 提交 特定 查询 的 用 户 的 平均 
年 龄 会 很 有 意思 ， 假 设 我 们 有 这 样 的 数据 ， 或 者 有 关于 用 户 在 输入 某 
个 查询 之 后 还 会 使 用 该 系统 的 预测 。 应 用 这 样 的 预测 可 以 帮助 我 们 对 
系统 的 忌 体 运行 情况 有 个 较 全 面 的 理解 。 


这 种 可 视 化 技术 的 最 大 缺点 (和 对 它 的 批评 是 不 支持 精确 比 
较 。 在 这 种 可 视 化 中 ， 难 以 量化 和 解释 特定 事物 项 之 间 的 关系 ; 其 他 
的 可 视 化 技术 对 于 这 种 狭义 的 分 析 则 是 更 有 效 的 。 这 种 可 视 化 技术 更 
偏 加 于 技术 ， 局 发 人 们 对 数据 集 提 出 新 的 问题 ， 或 者 提示 人 们 某 些 问 
题 的 可 能 答案 ， 而 不 是 作为 具体 的 问题 答案 来 源 。 





另 一 个 明显 的 缺点 是 当前 社会 尚未 教育 人 们 应 该 如 何 解释 这 些 可 
视 化 。 获 扣 图 、 柱 状 图 、 人 饼 图 一 一 人 们 当然 了 解 这 些 图 形 ， 但 古 不 了 
解 大 规模 的 图 形 可 视 化 。 


图 9-7 所 示 的 一 些 有 趣 的 案 类 说 明 的 一 个 技术 问题 是 ， 难 以 对 这 么 
多 的 事物 项 添加 标签。 本 章 给 出 的 可 视 化 都 是 使 用 自动 化 标签 算法 ， 
它 对 标签 的 位 置 放置 进行 优化 来 减少 标签 之 间 的 重 厨 。 同 样 地 存在 一 
些 重 有 到 还 是 难以 避免 。 也 许 随 着 技术 的 不 断 发 展 ， 创 造 性 的 新 的 解决 


方案 将 会 解决 这 个 问题 。 
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图 ”9-7: 一 个 标签 难以 阅读 的 聚 类 ( 见 彩 图 75) 


正如 之 前 所 述 ， 这 些 可 视 化 的 最 后 一 个 问题 是 它们 通常 涉及 从 高 
维 数据 集 降 维 成 二 维 或 三 维 数据 集 。 在 降 维 过 程 中 可 能 会 丢失 信息 ， 
因此 难以 确定 看 起 来 很 有 意思 的 分 组 方式 是 真实 地 反映 了 关于 数据 集 
的 一 些 有 趣 的 方面 ， 或 者 仅仅 是 该 过 程 中 产生 的 一 个 假象 。 


Netflix 奖 项 


早 束 存在 促使 用 户 个 性 化 定制 目 己 的 Web 体 验 的 愿景 ， 而 且 人 们 
为 了 实现 这 个 目标 也 做 出 了 许多 努力 。 理 想 情 况 下 ， 这 种 个 性 化 定制 
可 以 促使 Web 服 务 足够 了 解 你 的 偏好 ， 从 而 帮助 你 查找 和 餐厅、 书籍 、 
音乐 、 电 影 和 其 他 你 感 兴趣 的 事情 。 


Netflix 公 司 是 通过 邮件 和 在 线 出 租 电 影 的 公司 ， 它 有 一 套 推荐 系 
统 ， 壬 试 厦 给 顾客 提供 合适 的 推荐 。 这 些 推 荐 是 基于 顾客 评价 高 的 电 
影 以 及 具有 相似 偏好 的 顾客 的 评价 高 的 电影 。 在 2006 年 夏 ， 公 司 举办 
一 场 竞 赛 ， 给 任何 可 以 提高 其 推荐 算法 10 个 百分点 的 参赛 者 提供 100 万 
美元 的 奖金 。 作 为 本 次 比赛 的 一 部 分 ，Netflix 发 布 了 一 个 包含 1 亿 个 用 
户 、 对 17700 部 电影 进行 评价 的 数据 集 。 该 数据 集 可 以 通过 UCI 的 机 器 
学 习 库 在 线 获取 ( (htp: Warchive.ics.uci.edu/ml/) ° 








从 该 数据 集中 构建 一 个 发 现 系统 的 挑战 在 于 一 方面 数据 量 太 多 ， 
而 男 一 方 数据 量 义 太 少 。 使 用 简单 的 技术 来 解释 这 些 数据 甚至 浏 饮 
它 ， 则 问题 是 数据 量 太 多 。 然 而 ， 从 做 出 准确 的 推荐 的 角度 上 看 ， 其 
包含 的 数据 比 我 们 期 望 的 要 少 。 用 户 对 电影 的 评价 的 分 布 远 远 没 有 达 
到 均匀 分 布 ， 即 很 多 用 户 只 对 很 少 的 电影 做 出 评价 ， 很 多 电影 只 有 很 
少 的 评价 。 对 于 这 些 用 户 和 电影 ， 很 难 做 出 精确 的 预测 。 
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在 很 多 推荐 系统 中 ， 众 所 周知 的 相似 性 计算 方式 是 计算 余弦 相似 
性 。Linden、Smith 和 York (2003 年 ) 的 文章 中 对 该 技术 做 了 实用 的 介 


绍 。 


对 于 电影 ， 从 直观 上 考虑 ， 这 种 计算 方式 说 明了 如 果 用 户 对 一 部 
电影 评价 很 高 、 对 另 一 部 电影 评价 也 很 高 ， 则 这 两 部 电影 吏 是 相似 
的 ; 或 者 反之 ， 如 采用 户 对 一 部 电影 评价 很 低 、 对 男 一 部 电影 评价 也 
很 低 ， 则 这 两 部 电影 也 是 相似 的 。 








我 们 将 使 用 这 种 相似 度 衡量 方式 来 对 Netflix 交 数据 集 的 所 有 17700 
部 电影 生成 相似 性 信息 ， 然 后 基于 该 数据 生成 坐标 转换 。 如 果 我 们 对 
于 构建 真正 的 电影 推荐 系统 感 兴 趣 ， 我 们 可 以 人 简单 地 推荐 和 用 户 评价 
很 高 的 电影 相似 的 电影 。 然 而 ， 这 里 的 目标 只 是 对 这 种 推荐 系统 的 动 
态 性 有 更 深 的 理解 。 





标 僵化 





YELLOWPAGES.COM 可 视 化 比 Netflix 奖 可 视 化 更 易于 添加 标签 ， 
其 原因 有 很 多 ， 包 括 其 节点 更 少 ， 标 签 更 短 ， 但 是 最 主要 的 原因 是 其 

是 均匀 分 布 的 。 虽 然 Netflix 奖 可 视 化 中 存在 很 多 聚 类 ， 绝 大 多 数 电 
影 只 存在 于 其 中 很 少量 的 聚 类 中 。 当 我 们 只 查看 那些 评价 最 多 的 电 
影 ， 这 种 差异 看 起 来 则 更 加 明显 。 

















考虑 两 种 不 同 的 添加 标签 方法 : 


.对 最 受 欢 迎 的 电影 淆 加 标签 ， 随 机 对 其 他 电影 进行 抽样 。 这 种 方 
法 将 得 到 包含 最 受 欢 迎 的 电影 的 聚 类 ， 但 是 由 于 这 些 聚 类 的 密度 很 
， 可 能 难以 阅读 这 些 标签 。 





all 


-把 页 面 划分 成 网 格 ， 在 每 个 网 格 节点 位 置 对 小 样本 的 节点 添加 标 
。 这 种 方式 可 以 确保 所 有 育 类 都 包含 一 些 标 签 。 


对 于 图 9-8 中 的 可 祝 化 ， 使 用 第 一 种 策略 ， 因 为 它 说 明了 电影 总 体 
和 那些 有 很 多 评价 的 电影 (用 更 大 的 圆圈 表示 ) 的 分 布 都 是 非常 不 均 
匀 的 。 然 而 ， 对 于 后 续 图 形 中 对 该 可 视 化 的 放大 展示 ， 可 使 用 第 二 种 
策略 来 增强 可 读 性 。 
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图 9-8: Netflix 奖 数据 集中 对 17700 部 电影 的 可 视 化 ( 见 彩 图 76) 
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题 和 发 布 日 期 。 然 而 ，Netflix 奖 参赛 者 发 现 了 洪 在 的 属性 ， 比 如 电影 
的 骏 力 程度 或 者 用 户 的 性 别 ， 都 是 预测 偏好 的 重要 因素 。 不 足 为 奇 的 
是 ， 有 些 案 类 似乎 可 以 通过 这 些 属性 解释 。 然 而 ， 为 什么 其 他 从 用 户 
仿 好 生成 的 聚 类 却 更 难以 解释 ? 











我 们 将 要 碍 看 的 第 一 个 电影 聚 类 ( 见 图 9-9) ， 包 含 如 《星际 迷 
航 》( (Sar Trek)、《X 档 案 》 (X-Files) 和 《沙丘 魔 堡 》( (Dne) 这 样 的 
标题 ， 看 起 来 归属 于 一 个 流派 特征 ， 科 幻 小 说 。《 银 河 退 缉 令 》 

( (Glaxy Quesb 也 是 科幻 小 说 ， 但 它 是 讽刺 科幻 小 说 。 侦 探 喜剧 《神探 
阿 蒙 》( (Mnk) 也 属于 这 个 集合 ， 会 显得 非常 怪异 。 然 而 ， 这 是 一 个 偏 
好 案 类 ， 而 仿 好 绝 不 可 能 只 通过 流派 这 个 因素 来 定义 。 这 种 不 正常 现 
象 的 其 他 可 能 的 解释 是 给 《神探 阿 蒙 》 打 分 的 用 户 非 常 少 〈 注 意 该 聚 
类 内 其 所 表示 的 节点 大 小 很 小 ， 因 此 把 《神探 阿 蒙 》 归 属于 这 个 聚 
类 可 能 是 个 错误 ;也 了 束 是 说 ， 写 可 能 并 不 能 反映 Netflix 用 户 的 真正 侦 
好 。 这 一 点 不 仅仅 是 创建 该 可 视 化 的 一 个 主要 难题 ， 也 是 Netflix 奖 竞赛 
的 难题 ， 根 据 很 少量 的 已 有 用 户 评 分 来 预测 用 户 的 偏好 是 非常 困难 
HA) ° 
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Al 9-9: 科幻 小 说 电影 聚 类 


对 其 他 聚 类 的 解释 则 更 有 挑战 性 。 考 虑 图 9-10 中 的 例子 。 可 能 给 人 
的 直观 感觉 是 如 《欲望 都 市 》( (Mrgaret Cho)、《 双 人 秀 》( (Te Man 
Show) > CHERE) ( (Te Rocky Horror Picture Show) (三 部 都 是 很 
受 争议 的 喜剧 ) 可 能 会 受到 一 群 人 的 襄 扬 ， 却 受到 另 一 群 人 的 唾 罗 
因此 会 看 起 来 很 混乱 。 但 是 如 果 是 由 于 这 个 因素 ， 为 什么 其 他 类 似 的 
幽默 类 型 的 电影 没有 包含 在 这 个 聚 类 中 ? 为 什么 这 几 部 电影 之 间 的 关 
系 这 么 强 ， 使 得 它们 能 够 形成 一 个 聚 类 而 不 是 分 布 在 其 他 聚 类 中 ? 
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图 9-11 提 供 了 聚 类 的 另 一 个 例子 ， 直 观 上 看 ， 该 聚 类 反映 用 户 偶 好 
征 有 意义 的 。 如 采 我 们 能 够 获取 到 这 些 电影 的 其 他 属性 ， 或 者 获取 到 
对 这 些 电 影评 价 很 高 的 用 户 信息 ， 哪 一 种 信息 可 能 会 帮助 我 们 解释 在 
这 个 聚 类 中 显示 的 用 户 俩 好 ? 
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Al 9-11: “适合 家 庭 的 ?电影 聚 类 


解释 图 9-12 中 的 聚 类 的 其 中 一 种 方法 可 能 是 专注 于 一 个 事实 ， 即 这 
个 聚 类 中 的 所 有 电影 都 是 票房 很 高 的 动作 片 。 即 使 有 人 认为 《 魔 电 代 
BA) ( (Te Devil’s Advocate) 并 不 是 一 部 动作 片 ， 其 主演 奇 洛 :里 维 斯 








( (Kanu Reeves) 出 现在 很 多 这 样 的 票房 很 高 的 动作 片 中 ， 因 此 预期 他 
所 主演 的 其 他 电影 可 能 也 会 吸引 观众 。 
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Al 9-12: 动作 片 电影 聚 类 
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图 9-13 中 显示 的 聚 类 更 大 ， 而 且 较 难 特征 化 ， 但 是 它 还 十 很 好 地 反 
映 了 用 户 偏好 。 绝 大 多 数 这 类 电影 “让 人 感觉 恨 好” 绝 大 多 数 是 爱情 
故事 。 
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图 9-13: “让 人 感觉 良好 ”的 电影 聚 类 


之 前 提 人 到 的 一 个 问题 是 ， 系 统 提 供 的 电影 推荐 可 能 对 于 那些 尚未 
对 很 多 电影 做 出 评分 的 用 户 还 不 够 好 ， 因 为 系统 还 不 知道 这 些 用 户 的 
喜好 。 我 们 称 之 为 冷 局 动 ( (cld start) 问 题 。 实 际 上 ， 对 于 那些 对 很 多 电 
影 做 出 评价 的 用 户 ， 如 果 这 些 评 价 征 分布 在 很 多 不 同 的 场景 中 ， 那 也 
会 存在 这 个 问题 。 举 个 例子 ， 假 设 有 个 用 户 不 是 真正 喜欢 * 让 人 感觉 恨 
好 ” 聚 类 中 的 电影 ， 但 是 为 了 和 女 朋友 约会 ， 开 始 租 这 些 电影 ， 然 后 基 
于 每 次 约会 的 进展 来 对 电影 进行 评价 。 如 琳 他 开始 租 影片 目 己 看 ， 为 
了 发 现 他 真正 喜欢 的 电影 ， 他 可 能 没有 对 足够 多 的 电影 做 出 评价 来 反 
映 其 目 己 的 个 人 侦 好 。 更 广泛 地 说 ， 我 们 可 以 把 这 个 问题 看 成 是 数据 
黎 玖 问题 的 扩展 。 




















创建 目 己 的 可 视 化 


你 可 能 有 兴趣 以 自己 最 喜欢 的 数据 集 来 创建 和 本 章 给 出 的 类 似 的 
可 视 化 。 存 在 很 多 工具 可 以 用 于 达到 这 个 目的 。 我 们 首先 使 用 Per 来 
解析 数据 ， 计 算 相似 性 〈 当 然 可 以 使 用 其 他 语言 来 蔡 代 Per); 然后 把 
这 些 相似 性 结果 传 给 Shawn Martin 提 供 的 免费 软件 *DrL 软 
件 ”( (htp: /www.cs.sandia.gov/~smartin/software.htmD。DrL 使 用 之 前 
提 到 的 图 形 方法 ， 把 这 些 相似 性 转换 成 每 个 市 点 坐标 。DrL 的 优势 在 
于 它 可 以 递归 执行 ， 因 此 坐标 可 以 反映 更 高 层次 的 组 织 。 另 一 个 可 以 
取代 DHL 的 很 好 的 软件 是 GraphViz(http: //www.graphviz.org) ° 





完成 以 上 处 理 后 ， 我 们 继续 使 用 Penl 把 坐标 和 其 他 额外 信息 进行 
归并 ， 如 节点 的 尺寸 、 颜 色 和 标签 。 最 后 ， 把 处 理 完成 的 数据 集 传递 
给 商业 绘图 库 yFiles(http: //www.yworks.com/en/index.html), yFiles*f 
标签 进行 布局 ， 把 整个 可 视 化 泻 染 成 一 个 png 文 件 。yFiles 是 一 个 非常 
有 用 的 包 ， 但 是 你 可 以 略 过 这 一 步 ， 比 如 直接 使 用 Perl 创 建 EPS 文 件 ， 
其 代价 是 没有 对 标签 进行 布局 。 


结束 语 


本 章 给 出 的 两 个 例子 是 可 视 化 技术 的 两 个 非常 简单 的 应 用 。 如 果 
你 对 查看 这 种 类 型 的 可 视 化 感 兴趣 ， 在 线 的 “地 点 区 空间 ”( (Paces & 
Spaces) 展 览 网 站 上 包含 很 多 
( (htp: //www.scimaps.org/maps/browse/) ， 它 是 印第安 纳 大 学 的 Katy 
Borner 教 授 组 织 的 大 规模 的 可 视 化 集合 。 


值得 一 提 的 是 ， 这 种 可 视 化 类 型 目前 仍然 是 一 个 很 活跃 的 研究 领 
域 。 最 近 的 前 言 发 展 专 注 于 对 该 技术 进行 扩展 ， 纳 入 一 些 约束 条 件 。 
其 中 一 个 可 以 从 增加 约束 条 件 中 受益 的 领域 是 系统 生物 学 ， 人 们 可 能 
想 要 显示 和 蛋白质 之 间 的 相互 作用 。 其 相似 性 计算 可 能 是 基于 相互 作用 
的 蛋白质 的 数量 。 和 需要 的 约束 条 件 可 能 是 在 一 个 细胞 核 内 的 某 些 蛋 日 
质 ， 对 其 以 某 个 特定 圆 形 区 域 的 坐标 显示 ;而 对 于 细胞 质 内 的 蛋白 
质 ， 则 以 更 大 范围 的 圆 形 区 域 坐标 显示 ， 并 且 不 会 和 细胞 核 内 的 蛋 日 
质 重 到 。 同 样 ， 可 以 限制 膜 蛋 日 在 一 个 圆圈 上 显示 ， 而 同时 还 征 按 相 
似 度 分 组 。 像 本 章 讨 论 的 搜索 和 发 现 系统 的 可 视 化 ， 这 种 可 视 化 可 以 
提供 全 局 画面 ， 有 助 于 局 发 思考 或 者 验证 人 们 当前 的 直觉。 这 种 可 视 
化 技术 在 其 他 领域 的 可 能 应 用 方式 ， 作 为 练习 留 给 读者 思考 。 
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B10 MLAS ZS By AAR PARSE I 
的 感悟 “Adam Perer 


我 的 目标 始终 生 把 符号 并 列 、 组 合成 为 统一 、 一 致 的 整体 来 解释 
物质 。 








Mark Lombardi，2000 年 


Mark Lombardi |"! 可 能 卉 称 完美 的 网 络 布局 算法 。 作 为 一 位 致力 于 
揭露 经 济 和 政治 丑闻 的 错综复杂 的 网 络 信 息 的 乞 术 家 ， 他 努力 绘制 市 
RCA HS IROX, MARAIS AS Hees ( 见 图 10-1) ° 
以 计算 方式 创建 的 社交 网 络 的 可 视 化 很 少 能 够 达到 这 种 程度 的 优雅 和 
感性 。 虽 然 高 级 的 计算 布局 算法 可 能 是 以 弹力 和 推动 力 的 物理 模型 为 
基础 ， 但 是 它们 很 少 能 够 像 Lombardi 的 绘图 那样 突出 模式 和 趋势 。 本 
章 详 细 描 述 我 为 了 使 用 户 能 够 使 用 可 视 化 和 统计 的 集成 交互 技术 来 深 
入 研究 混杂 的 社交 网 络 所 做 的 一 些 探索 。 


任 交 网 络 可 视 化 


现代 社会 数字 信息 的 增长 开辟 了 数据 分 析 的 黄金 时 代 。 丰 富 的 数 
据 促 使 人 们 为 了 解释 科学 、 社 会 、 文 化 和 经 济 现 象 ， 做 出 了 更 频繁 的 
数据 分 析 探 索 。 虽 然 能 够 使 用 数据 很 重要 ， 但 仅仅 做 到 这 一 总 还 是 不 








够 的 ， 我 们 还 需要 能 够 理解 模式 、 识 别 游离 点 和 发 现 差 异 。 现 代 的 数 
据 库 太 大 了 ， 人 们 如 果 没 有 计算 工具 的 帮助 将 无 法 处 理 和 使 用 数据 。 





图 10-1: 艺术 家 Mark Lombardi 手 绘 的 一 个 社交 网 络 的 例子 (“世界 金 
融 公 司 ， 这 阿 密 ， 佛 罗 里 达州 ，1970 年 一 1979 年 (第 6 
版 ) ”(1999) ; 纽约 布鲁克 林 PIEROGI 艺 术 馆 授权 使 用 ， 见 彩 图 77) 


最 强大 的 感官 接收 器 一 一 眼睛 ， 其 “市 宽 " 和 人 处理 能 力 远 远 高 于 呀 
觉 、 听 觉 、 味 觉 和 触觉 接收 器 。 因 此 ， 信 息 可 视 化 是 充分 利用 人 类 节 





强大 的 感知 系统 的 强大 能 力 的 有 效 方式 。 然 而 ， 选 择 有 效 的 展现 方式 
共有 很 大 的 挑 成 性 ， 因 而 不 是 所 有 的 信息 可 视 化 都 可 以 达到 相同 的 效 
条 。 不 是 所 有 的 信息 可 视 化 都 是 为 了 突出 对 于 分 析 师 的 任务 而 言 重 要 
的 模式 、 差 异 和 游离 点 ， 更 进一步 说 ， 也 不 是 所 有 的 信息 可 视 化 都 是 
为 了 “迫使 我 们 去 注意 自己 从 未 期 望 看 到 的 事物 ”"( (Tkey 1977) ° 

















数据 分 析 中 一 个 渐 趋 普 志 的 趋势 是 将 相互 关联 的 数据 作为 网 络 进 
行 分 析 。 网 络 分 析 不 仅仅 古 查 看 数据 的 属性 ， 还 会 天 注 数据 和 最 终 产 
出 之 间 的 结构 关联 。 我 的 研究 重点 正 古 理解 这 些 网 络 ， 因 为 在 分 析 师 
看 来 ， 网 络 是 热门 的 、 新 兴 的 且 本 质 上 具有 挑战 性 的 。 网 络 总 是 难以 
进行 可 视 化 和 导航 ， 而 且 最 大 的 问题 是 很 难 找到 与 任务 相关 的 模式 。 
尽管 有 这 些 挑战 ， 网 络 分 析 依 然 深 受 社会 学 家 、 情 报 分 析 师 、 生 物 学 
家 、 通 信 理 论 家 、 文 献 妍 究 员 、 食 物 网 生态 学 家 以 及 很 多 其 他 专业 人 
士 的 青睐 。 从 最 畅销 的 书籍 ， 如 Malcolm Gladwell 的 《The Tipping 
Point) ( (Bck Bay 从 书 ) , Albert-Laszl6 Barabasif) (Linked) ( (Pume 
出 版 社 ) 和 Duncan Watts 的 《Six Degrees) ( (Nrton 出 版 社 ) ， 可 以 看 
出 社会 网 络 分 析 (〈SA) 的 流行 度 日 趋 增长 ， 同 时 也 因为 这 些 书 籍 的 畅 
请 而 进一步 促进 了 它 的 流行 。 无 数 的 分 析 师 希望 能 够 分 析 他 们 的 网 络 
数据 ， 但 是 只 有 很 少 成 熟 且 广泛 应 用 的 工具 和 技术 能 够 达到 这 一 目 
的 。 











网 络 分 析 师 注重 研究 不 同 因素 之 间 的 关系 而 非 具 体 因素 ; 这 些 因 
素 可 以 解释 社会 、 文 化 和 经 济 现 象 ， 但 它们 之 间 如 何 联系 和 它们 本 身 
一 样 重要 。 在 出 现 社交 网 络 分 析 观 点 之 前 ， 很 多 分 析 师 主要 注重 于 内 
在 的 个 别 属性 和 被 忽略 的 社会 行为 ， 也 就 是 说 ， 注 重 于 个 别 因素 如 何 
交互 以 及 它们 之 间 的 影响 ( (Feeman 2004) 。 借 助 来 自 社交 网 络 社区 的 
更 为 新 型 的 技术 ， 分 析 师 可 以 发 现 结构 中 的 模式 ， 见 证 资源 或 消息 流 
在 网 络 中 的 传输 ， 理 解 个 别 因素 如 何 受到 周围 环境 的 影响 。 








在 实践 中 ， 社 交 网 络 可 视 化 是 混杂 的 ， 尤 其 当 网 络 规模 很 大 时 。 

可 视 化 在 充分 利用 人 类 强大 的 感知 能 力 上 很 有 用 ， 但 是 混乱 的 展现 方 
式 、 边 重要 以 及 不 合法 的 节点 标签 通常 会 削弱 可 视 化 探索 的 价值 。 在 
这 些 情 况 下 ， 交 互 技术 对 于 理解 这 些 复杂 的 静态 可 视 化 是 有 用 的 。 内 
在 属性 是 存在 于 数据 集中 的 属性 ， 比 如 性 别 、 种 族 、 薪 水 或 受 教育 程 
度 。 通 过 节点 和 边 的 内 在 属性 进行 缩放 、 平 移 或 过 滤 等 交互 可 以 简化 
复杂 的 可 视 化 。 不 驻 的 是 ， 对 于 复杂 的 网 络 ， 这 些 技术 所 能 达到 的 可 
能 也 就 仅 此 而 已 ， 无 法 挖掘 出 整个 故事 ， 尤 其 是 在 小 世界 网 络 中 密度 
高 的 连接 很 少 会 没有 交叉 ( (vn Ham 2004) 。 内 在 属性 缺乏 对 社交 网 络 
分 析 师 而 言 非 常 重要 的 结构 化 拓扑 信息 。 我 们 的 主要 贡献 是 通过 反映 
用 户 任务 的 计算 属性 来 增强 信息 可 视 化 。 计 算 属性 可 以 通过 以 下 几 种 
策略 来 计算 : 相关 的 重要 性 统计 指标 (如 度 或 距离 中 心 的 程度 , R 
类 算法 或 者 数据 挖 握 。 

















充分 利用 计算 属性 的 处 理 方式 对 于 社交 网 络 分 析 师 尤其 有 价值 ， 
因为 他 们 也 开始 意识 到 内 在 属性 并 不 能 揭示 整个 故事 。 实 际 上 ， 社 交 
网 络 分 析 师 采取 的 方法 写 在 探索 时 忽略 内 在 属性 ， 避 免 个 人 俩 好 ， 而 
只 注重 数据 的 结构 化 属性 。 对 于 社交 网 络 分 析 师 ， 计 算 属性 可 以 通过 
一 组 丰富 的 统计 方法 来 计算 (从 社会 学 到 图 形 理 论 ) ， 因 而 可 以 使 分 
析 师 大 量 挖掘 他 们 所 在 网 络 的 有 趣 的 特征 。 分 析 师 可 能 会 寻找 紧密 结 
合 的 个 人 社区 群体 ， 或 者 是 他 们 当中 的 信息 传递 员 ， 或 者 是 处 于 中 心 
地 位 的 强大 个 体 ;， 存 在 很 多 找到 这 些 符 征 的 复杂 的 算法 。 











大 部 分 可 祝 化 工具 的 目的 是 把 复杂 的 数据 映射 到 易于 理解 的 视图 
中 。 然 而 ， 很 少 有 工具 可 以 通过 突出 代表 数据 重要 特征 的 计算 属性 来 
帮助 用 户 进行 可 视 化 。 用 户 可 以 在 统计 和 可 视 化 软件 包 中 来 回 切换 使 
用 ， 但 是 这 种 做 法 可 能 会 导致 分 析 过 程 中 数据 流 很 低 效 ， 从 而 阻碍 人 
们 新 的 发 现 。 





SocialAction Ben Shneiderman 和 我 一 起 创建 的 用 于 探索 这 些 问题 
的 软件 工具 ( (htp: /www.cs.umd.edu/hcil/socialaction)。 通 过 集成 统计 
和 可 视 化 技术 ， 该 工具 可 以 即时 提供 有 意义 的 计算 属性 ， 帮 助 用 户 快 
速 利用 二 者 的 优点 。SocialAction 骨 入 了 统计 算法 来 探测 重要 的 个 体 、 
关系 和 聚 类 。 该 工具 不 是 以 经 典 的 表格 方式 来 表示 统计 结果 ， 而 是 集 
成 在 网 络 可 视 化 中 ， 该 可 视 化 能 够 提供 有 意义 的 节点 和 边 的 计算 属 
性 。 通 过 计算 属性 ， 用 户 可 以 很 轻松 地 动态 过 滤 节 点 和 边 并 找到 有 趣 








的 数据 点 。 这 些 可 视 化 简化 了 统计 结果 ， 有 助 于 增进 理解 和 发 现 如 分 
布 、 模 式 、 趋 势 、 夸 异 和 游离 点 的 特征 。 这 些 统计 简化 了 对 有 时 混 灯 
的 可 视 化 的 理解 ， 人 允许 用 户 关注 统计 上 有 意义 的 节点 和 边 。 在 一 个 一 
致 的 接口 内 的 这 些 丰 富 的 交互 可 以 提供 流 式 的 、 高 效 的 可 视 化 分 析 系 
统 ， 它 使 得 用 户 可 以 从 温 乱 的 软件 包 的 管理 之 中 解放 出 来 ， 从 而 可 以 
将 精力 集中 于 深入 考察 数据 并 得 出 推论 。 我 在 后 面 将 带 你 一 起 来 看 一 
看 丰富 的 统计 和 可 视 化 交互 ， 但 在 此 之 前 我 们 将 首先 探讨 其 之 所 以 重 
要 的 原因 。 





[1] Mark Lombardi 是 美国 的 概念 派 艺 术 家 ， 其 错综复杂 的 艺术 作品 主要 
展现 在 《Mark Lombardi:Global Networks》 中 。 


谁 想 要 对 社交 网 络 进行 可 视 化 


我 在 学 术 界 和 工业 界 的 社交 网 络 分 析 领 域 的 研究 工作 都 表明 : 在 
试 独 解释 社交 网 络 时 ， 纯 粹 的 统计 分 析 是 最 音 用 的 技术 。 虽 然 网 络 可 
视 化 在 学 术 性 文章 和 报告 中 很 常见 ， 但 它们 通常 是 在 分 析 完 成 后 为 了 
和 用 户 交 流 而 创建 的 ， 并 不 一 定 是 在 探索 性 分 析 过 程 中 所 使 用 的 。 





在 社交 了 网络 中 使 用 可 视 化 图 像 的 历史 在 “Visualizing Social 
Networks”( (Feeman 2000) 中 有 介绍 ， 其 中 包含 了 Jacob Moreno 在 1934 
年 描述 的 最 时 的 社交 网 络 可 视 化 例子 。 在 图 10-2 中 ， 三 角形 表示 的 节点 
是 男孩 ， 圆 圈 表 示 的 节点 是 女孩 。 在 不 知道 教室 中 每 个 人 的 详细 信息 
的 情况 下 ， 人 们 也 可 以 很 快 地 从 该 可 视 化 图 形 中 了 人 解 到 : 1) 男孩 和 男 
孩 交 朋友 ; 2) 女孩 和 女孩 交 朋友 ; 3) 某 个 勇敢 的 男孩 选择 一 个 女孩 
作为 朋友 (虽然 不 是 相互 的 ， 即 这 个 女孩 并 没有 选择 该 男孩 作为 朋 
友 ) ; 4) 有 两 个 女孩 单独 组 成 一 个 群 组 。 该 可 视 化 图 形 典 型 地 说 明了 
一 个 合理 的 、 结 构 良 好 的 网 络 可 以 很 好 地 解释 个 体 的 社交 结构 。 








随 着 每 个 天 系 的 数据 维度 的 增加 ， 社 交 网 络 数据 会 变 得 极端 复 
杂 。 熟 悉 网 络 可 视 化 的 人 可 能 会 很 同情 那些 负责 统计 的 从 业 人 员 ， 因 
为 当 节 点 和 边 的 数目 很 多 时 ， 设 计 一 个 有 用 的 网 络 可 视 化 非常 困难 。 
大 规模 的 网 络 可 视 化 通常 是 节点 和 边 的 交叉 集合 ， 而 且 几 乎 无 法 到 
达 “NetViz Nirvana”( (Bn Shneiderman 创 造 的 一 个 术语 ， 用 于 描述 能 够 





看 到 每 个 市 点 以 及 可 以 通过 它 的 边 到 达 所 有 其 他 的 节点 ) 。 网 络 可 视 
化 可 能 会 提供 聚 类 和 游离 点 信息 ， 但 是 总 体 而 言 ， 人 们 很 难 从 这 些 复 
杂 的 可 视 化 中 得 出 更 深入 的 感悟 认 知 。 





图 10-2: 最 早 的 社交 网 络 可 视 化 之 一 : Jacob Moreno 制 作 的 四 年 级 学 
生 中 的 好 友 选 择 ( (Mreno 1934) 


第 一 个 原因 是 很 难 使 用 单纯 的 统计 方法 找到 模式 和 趋势 。 第 二 个 





原因 是 网 络 可 视 化 往往 只 是 提供 很 少 的 见解 ， 通 第 几乎 无 法 提供 任何 
的 实用 功能 。 因 此 ， 一 名 社交 网 络 的 研究 人 员 应 该 做 哪些 事情 ? 以 紧 
密 结 合 的 方式 同时 利用 可 视 化 和 统计 技术 ， 从 而 创造 出 美丽 实用 的 可 


视 化 作品 。SocialAction 的 设计 即 是 秉 着 这 个 目标 为 中 心 。 


SocialAction 上 的 设计 


结构 分 析 师 提出 了 很 多 衡量 方法 来 从 统计 的 角度 评估 社交 网 络 。 

然而 ， 却 没有 一 种 系统 的 方式 可 以 用 来 对 这 种 网 络 进行 解释 ， 因 为 这 
些 方 式 在 不 同 网 络 中 会 有 不 同 的 鸿 义 。 这 十 有 问题 的 ， 因 为 分 析 师 布 
望 确保 他 们 没有 忽略 了 网 络 中 一 些 重要 方面 。 为 了 使 探索 更 加 简单 ， 

我 采访 了 几 名 社交 网 络 分 析 师 并 查看 了 社交 网 络 期 刊 ， 把 最 第 用 的 措 
施 汇 总 到 了 一 张 表格 中 。 然 后 ， 我 把 这 些 措施 组 织 成 了 6 个 以 用 户 为 中 
心 的 任务 : 总 体 概 贤 、 节 点 排序 、 边 排序 、 世 点 绘制 、 社 区 发 现 以 及 
边 的 类 型 。 后 文中 我 将 详细 摘 述 每 一 项 任务 以 及 它们 的 关联 特征 。 在 
此 之 前 ， 我 们 首先 需要 明确 一 下 这 个 过 程 的 主要 目标 。 





Shneiderman 的 可 视 化 信息 搜索 吃 语 一 “总 体 概览 为 先 ， 缩 放 和 过 
滤 次 之 ， 最 后 按 需 提供 细 市 *( (Sneiderman 1996) 可 以 作为 社交 网 
络 分 析 师 组 织 复杂 任务 的 一 个 指南 。 分 析 师 首先 需要 分 析 清 楚 网 络 的 
总 体 概览 ， 此 时 需要 同时 利用 统计 技术 和 可 视 化 技术 ( 见 图 10-3a) ° 
整个 网 络 的 衡量 标准 ， 如 密度 、 直 径 和 组 件 个 数 ， 是 通过 有 向 布局 图 
进行 计算 和 展示 的 。 该 可 视 化 能 够 使 用 户 对 网 络 的 结构 、 网 络 中 包含 
的 聚 类 以 及 网 络 的 深度 有 一 个 认识 ， 而 统计 提供 了 用 于 确认 和 量化 视 
觉 发 现 的 一 种 方式 。 如果 网 络 规模 很 小 或 者 分 析 师 只 对 网 络 的 拓扑 结 
构 感 兴趣 ， 完 成 到 这 个 步骤 就 够 了 。 

















一 个 更 专业 的 分 析 师 会 希望 对 网 络 的 各 个 元 素 有 更 深入 的 了 解 。 
用 户 可 以 应 用 在 社交 网 络 分 析 中 常见 的 统计 指标 来 衡量 节点 〈 也 称 为 
顶点 ) 和 边 (也 称 为 连接 ) 。 举 个 例子 ， 分 析 师 可 以 通过 “ 度 ” (连接 
最 多 的 节点 ) 、 中 心 度 (控制 点 、 紧 密 性 (节点 位 置 可 以 很 好 地 接 
收 信息 ) 以 及 一 些 其 他 指标 来 对 节点 进行 排序 。 用 户 选 择 完 一 个 指标 
后 ， 按 照 这 个 指标 对 节点 进行 排序 之 后 输出 到 一 个 表格 中 。 
SocialAction 会 根据 这 个 表格 的 数据 给 每 个 节点 指定 一 种 颜色 ， 从 绿色 
(排名 低 的 ) 到 黑色 (排名 居中 ) 再 到 红色 (排名 高 的 ) 。 这 种 方式 
有 助 于 阐明 每 个 节点 在 整体 之 中 所 处 的 位 置 。 与 此 同时 ， 会 对 整个 可 
视 化 网 络 进行 更 新 ， 对 每 个 节点 进行 着 色 。 用 户 现在 可 以 查看 整个 网 
络 来 确定 是 否 存在 重要 的 节点 〈 见 图 10-3a) ° 








为 了 获取 更 深入 的 认 知 ，SocialAction 支 持 用 户 继续 进行 可 视 化 信 
筷 搜 索 开 语 的 第 二 步 一 一 “缩放 和 过 滤 ”。 这 是 大 多 数 其 他 社交 网 络 分 
析 工 具 包 为 “束手无策 ”的 用 户 提供 的 一 个 方案 。 平 移 和 拖 放 实际 上 无 
法 真正 地 帮助 用 户 找 到 信息 :对 网 络 中 的 某 一 块 进行 缩放 会 使 用 户 无 
法 了 解 全 局 结构 ， 密 集 网 络 可 能 永远 都 纠缠 在 一 起 而 无 法 解 开 。 
SocialAction 人 允许 用 户 通过 目 己 控制 的 统计 来 驱动 导航 。 用 户 可 以 使 用 
范围 深 动 条 ， 名 略 不 满足 他 们 的 标准 的 网 络 区 域 。 通 过 对 属性 或 者 重 
要 性 指标 进行 过 滤 ， 并 允许 用 户 专 注 于 他 们 所 关心 的 节点 类 型 ， 而 同 
时 简化 了 可 视 化 ， 如 图 10-3b 所 示 。 


























虽然 分 析 师 通过 统计 方法 和 可 视 化 展现 可 以 了 解 全 局 趋势 ， 但 是 
他 们 的 分 析 通 常 是 不 完整 的 ， 没 有 理解 单个 节点 所 代表 的 洱 义 。 和 大 
多 数 其 他 网 络 可 视 化 不 同 ， 在 SocialAction 中 通常 包含 标签 。 字 体 大 小 
和 长 度 控 制 条 允许 分 析 师 决定 他 们 的 重点 。 这 与 第 三 步 中 的 可 视 化 信 
AAA 〈“ 按 需 提 供 细节 ”) 一 致 ， 用 户 可 以 选择 一 个 节点 来 查看 
其 所 有 的 属性 。 在 节点 之 上 莱 售 也 突出 了 每 个 方 点 的 边 和 邻居 节点 ， 
达到 了 找到 感 兴趣 节点 的 NetViz Nirvana 效 果 ， 如 图 10-3c 所 示 。 
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Understanding the details 


图 10-3: a) 该 界面 显示 的 统计 部 分 允许 用 户 选 择 统计 算法 ， 从 而 找 
到 重要 的 和 点 、 检 测 聚 类 等 。 而 可 视 化 部 分 是 和 统计 结合 起 来 的 。 根 
据 节 点 排序 对 它们 进行 着 色 ， 红 色 闻 点 是 统计 指标 最 重要 的 节点 。b) 
使 用 统计 算法 查找 控制 点 。 用 户 使 用 动态 深 动 条 过 滤 不 重要 的 市 点 ， 
这 种 方法 简化 了 可 视 化 ， 同 时 能 维持 网 络 中 市 点 的 位 置 和 结构 。c) 标 
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见 彩 图 78) 


男 外 ， 举 个 较 轻 松 的 例子 ， 我 们 一 起 来 看 看 我 在 Facebook 上 的 个 
人 社交 网 络 。 如 果 我 使 用 标准 的 网 络 布局 算法 对 连接 进行 可 视 化 ， 就 
可 以 得 到 一 个 Jackson Pollack 图 一 一 它 看 起 来 一 团 糟 ; 虽然 其 中 包含 了 
一 些 很 有 意思 的 地 方 ， 但 是 它 显 然 缺乏 Lombardi 图 所 具备 的 优雅 性 。 
然而 ， 如 果 我 利用 一 些 统计 方法 (在 这 个 例子 中 是 设计 一 个 聚 类 算 
法 ， 用 于 检测 社区 ) ， 我 就 可 以 得 到 合理 得 多 的 输出 结果 。 原 本 是 一 
组 交叉 的 节点 和 边 ， 而 现在 却 可 以 成 为 用 于 把 社交 网 络 分 组 成 有 意义 
的 分 类 。 我 可 以 看 到 高 中 朋友 、 大 学 朋友 、 研 究 生 朋友 、 在 微软 的 同 
事 等 的 聚 类 〈 见 图 10-4) 。 因 为 有 了 网 络 布局 算法 ， 一 个 原本 没有 任何 
意义 的 图 像 开始 变 得 美丽 。 











图 10-4: 我 的 Facebook 社 交 网 络 可 视 化 。 基 于 网 络 聚 类 算法 ， 发 现 了 

代表 我 生活 中 的 不 同方 面 的 7 个 有 意义 的 朋友 社区 。 如 果 没 有 素 类 ， 该 

网 络 就 会 由 于 有 太 多 边 而 交叉 在 一 起 ， 导 致 无 法 提供 任何 意义 OU 
图 79) 


总 之 ， 把 统计 和 可 视 化 技术 结合 在 一 起 可 以 给 出 一 套 优雅 的 数据 
分 析 探 索 的 解决 方案 。 可视化 简化 了 统计 结果 ， 改 进 了 对 模式 和 全 局 
趋势 的 理解 。 而 统计 学 又 简化 了 对 偶尔 混 洒 的 可 视 化 的 理解 ， 人 允许 用 
户 专注 于 统计 指标 上 重要 的 和 点 和 边 。 


RMAF: 从 混乱 到 美丽 


最 终 ， 是 什么 使 网 络 可 视 化 变 得 美丽 ? 18 世 纪 的 苏格兰 哲学 家 
David Hume (1742) 写 道 : 








美 不 是 存在 于 事物 本 身 的 品质 中 。 她 只 存在 于 对 美 进行 思考 的 人 
们 的 心目 之 中 ， 而 且 每 个 人 看 到 的 美 都 是 不 同 的 。 


然而 ，Hume 对 美的 这 个 定义 受到 一 些 人 的 质疑 。 苏 格 兰 副教授 
Henry Home(Kamesft-F) 认为 美 是 可 以 被 分 解 为 一 个 理性 的 规则 系 


统 。 





当 谈 到 对 基础 数据 的 可 视 化 时 ， 我 同意 Kames 医 士 的 观点 。 对 于 一 
个 成 功 的 可 视 化 ， 其 成 功 的 衡量 标准 是 ， 是 否 能 够 帮助 人 们 产生 对 事 
物 的 认 知 。 分 析 师 可 能 是 验证 自己 的 直觉 、 检 测 异常 或 游离 点 ， 或 者 
发 现 潜在 模式 。Virginia Tech 大 学 的 教授 Chris North 把 认 知 特征 化 为 复 
杂 、 有 深度 、 定 性 、 出 乎 意料 和 相关 的 发 现 。 而 对 于 有 用 的 特征 化 ， 
给 人 的 印象 是 衡量 认 知 就 像 衡 量 美丽 一 样 复 杂 。 传 统 的 基于 实验 室 的 
对 条 件 进行 控制 的 环境 已 经 被 证 实 对 于 很 多 科学 试验 是 有 效 的 ， 但 是 
它们 是 否 对 于 认 知 也 有 效 ? 举 个 例子 ， 如 果 我 发 明了 新 的 展示 或 输入 
小 工具 ， 对 条 件 进行 控制 的 环境 可 以 通过 衡量 学 习 时 间 、 任 务 执行 时 
间或 者 错误 概率 来 比较 两 种 或 者 更 多 不 同 的 处 理 方 式 。 典 型 的 实验 将 

















会 涉及 20~60 个 参与 者 ， 每 人 进行 10~30 分 钟 的 训练 ， 所 有 参与 者 在 1 
一 3 小 时 的 时 间 段 内 都 完成 相同 的 2~20 个 任务 。 可 以 使 用 统计 方法 如 t 
测试 和 ANOVA 方 法 检查 在 均值 上 的 显著 区 别 。 这 些 汇总 统计 是 有 效 
的 ， 尤 其 当 不 同 用 户 间 存在 较 小 的 差异 时 。 





然而 ， 如 果 有 人 把 认 知 分 解 成 一 组 可 衡量 的 任务 ， 那 结果 会 怎么 
样 呢 ? 第 一 个 挑战 是 对 于 规模 巨大 的 问题 ， 分 析 师 通常 需要 工作 几 天 
或 者 几 周 才能 完成 数据 的 分 析 ， 而 且 他 们 的 工作 过 程 几乎 无 法 在 基于 
实验 室 的 条 件 可 控制 的 环境 下 复 现 (即使 在 需要 的 时 间 段 内 可 以 有 大 
量 的 教授 参与 ) 。 第 二 个 挑战 是 探索 性 任务 在 本 质 上 就 是 无 法 明确 定 
义 的 ， 因 此 竺 诉 用 户 应 该 完成 哪些 任务 与 探索 这 一 任务 本 质 上 束 旦 冲 
突 的 。 第 三 个 挑战 是 每 个 用 户 都 有 目 己 独特 的 技巧 和 经 董 ， 这 会 造成 
执行 结果 差别 很 大 ， 它 会 前 弱 汇 总 统计 的 有 效 性 。 在 控制 条 件 的 研究 
中 ， 异 利 的 表现 被 认为 是 不 幸 的 游离 点 ， 但 是 在 案例 研究 中 ， 这 些 特 
殊 事 件 是 有 助 于 产 出 成 果 的 关键 事件 ， 它 会 为 发 现 提供 认 知 基础 。 第 
四 个 挑战 是 我 希望 该 工具 具备 更 多 的 量化 分 析 功 能 ;我 希望 听 到 用 户 
遇 到 的 问题 和 挫折 ， 以 及 他 们 那 激动 人 心 的 成 功 故事 。 由 于 这 些 原 
因 ， 我 采取 了 结构 化 的 、 可 复制 的 案例 研究 方法 来 确定 SocialAction 十 
否 能 够 生成 美丽 的 可 视 化 。 














以 下 各 市 概述 了 一 些 真 正 的 分 析 师 使 用 SocialAction 对 自己 的 数据 
进行 可 视 化 的 一 些 案例 研究 。 为 了 表达 对 Mark Lombardi 的 敬仰 ， 我 这 
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国会 分 析 师 对 于 研究 美国 参议 院 的 各 个 党 派 很 感 兴趣 。 例 如 ， 
《国会 季刊 》 会 对 每 个 选票 计数 ， 计 算 多 数 民 主攻 反对 共和 和 党 的 选 
票 ， 然 后 计算 每 个 参议 员 选 票 文 持 其 政党 的 比例 。 这 个 指标 可 以 有 效 
地 追踪 不 同年 份 每 个 参议 员 对 其 所 在 政党 的 忠诚 度 ， 但 是 它 无 法 揭示 
整体 格局 的 全 局 模式 。 





Chris Wilson 当 时 是 《美国 新 闻 与 世界 报道 》 的 副 主 编 ， 对 2007 年 
美国 参议 员 的 选票 模式 感 兴趣 。Chris Wilson 开 始 揭示 数据 集中 参议 员 
模式 ， 包 括 战 略 、 两 大 党 派 和 地 理 联 盟 。 他 投入 了 很 大 努力 来 挖掘 公 
共 数 据 库 中 的 投票 数据 ， 但 是 通过 正 币 的 分 析 方 法 无 法 找到 任何 不 同 
的 模式 。Wilson 相 信和 社交 网 络 分 析 能 够 产生 其 探索 的 结 末 。 数 据 包 合 
2007 年 最 初 6 个 月 每 个 参议 员 的 选票 结果 ， 从 民主 党 开始 ， 他 们 以 多 出 
一 席 的 投票 得 到 议院 的 控制 权 。 可 以 依据 选票 的 共 现 度 ( 〈c- 


occurrences) 来 推导 社交 网 络 。 





Wilson 构 建 了 一 个 这 样 的 网 络 ， 当 一 个 参议 员 和 男 一 个 参议 员 在 一 
项 决议 上 的 投票 立场 一 致 ， 束 用 一 条 边 把 它们 连接 起 来 。 每 条 边 的 强 
度 是 基于 参议 员 之 间 的 相同 投票 来 计算 的 〈 比 如， 奥巴马 和 和 希拉 里 相 
同 投票 数 为 203， 而 奥巴马 和 布朗 巴克 的 相同 投票 数 只 有 59) 。 这 样 会 





产生 一 个 非常 密集 的 网 络 ， 因 为 存在 一 些 无 可 争议 的 决议 ， 所 有 参议 
员 都 投 赞成 票 〈 比 如， 决议 RC-20， 一 个 表彰 “地 铁 英雄 "Wesley Autrey 
的 英雄 行为 的 法 案 ) 。 所 有 参议 员 都 连接 在 一 起 ， 结 果 生 成 一 个 看 起 
来 巨大 的 、 复 灯 的 网 络 可 视 化 。SocialAction 人 允许 用 户 根据 重要 性 指标 
对 边 进 行 排序 。Wilson 使 用 该 特征 ， 通 过 动态 过 滤 掉 重要 性 排序 低 的 关 
系 来 比较 网 络 可 视 化 。 举 个 例子 ， 图 10-5 显 示 了 靖 值 为 “180 个 选 

票 ”( 约 60% 的 选票 相同 ) 。 即 使 对 于 这 个 非常 低 的 靖 值 ， 党 派 间 的 关 
系 还 是 很 强 ， 很 可 能 选票 和 民主 党 一 致 的 共和 党 参议 员 (如 Collins、 

Snowe、Spector 和 Smith) 也 非常 明显 。 这 个 可 视 化 说 明了 在 这 个 特殊 的 
参议 院 中 ， 虽 然 两 个 政党 都 有 很 强 的 党 派 性 ， 共 和 党 的 党 派 性 低 于 民 

主 党 的 。 














男 一 个 意 想 不 到 的 发 现 是 随 着 阐 值 增加 ， 民 主 党 似乎 比 共 和 党 更 
凤 密 团结 ， 因 为 图 中 所 示 ， 民 主 党 内 的 连接 更 密集 ， 闫 色 更 深 。 虽 然 
每 条 边 都 有 些 透 明 ， 但 是 民主 党 内 由 于 边 的 不 断 重合 产生 了 闫 色 很 深 
的 一 团 ， 而 共和 党 内 则 相对 称 葡 得 多 。Wilson 认 为 该 交互 可 以 生动 地 说 
明 民 主 党 在 保持 党 内 一 致 的 决策 会 议 中 的 成 功 ， 它 是 评审 立法 战略 的 
一 个 重要 方面 。 统 计 和 可 视 化 的 结合 使 得 该 发 现成 为 可 能 。 














图 10-5: 该 可 视 化 说 明了 在 2007 年 美国 参议 员 的 投票 模式 。 红 色 表 示 

的 共和 党 显示 在 右 侧 ， 蓝 色 表 示 的 民主 党 显示 在 左 侧 ， 男 外 还 有 两 个 

独立 派 。 连 接 表示 投票 记录 的 相似 性 ， 揭 示 了 2007 年 民主 党 的 党 派 忠 

诚 度 更 高 。4 位 来 自 东 北 各 州 的 共和 党 通常 投票 文 持 民主 党 。 麦 凯 恩 和 

布朗 巴克 一 起 参加 总 统 竞选 ， 但 是 他 们 的 相同 选票 数 不 足 以 把 他 们 连 
接 起 来 ( 见 彩 图 80) 








为 了 确定 个 别 政客 的 投票 模式 ，Wilson 使 用 了 SocialAction 的 统计 
重要 性 指标 。 对 所 有 节点 进行 排序 、 对 排序 结果 进行 可 视 化 ， 以 及 过 
滤 掉 不 重要 的 节点 ， 这 样 束 可 以 市 来 很 多 新 的 发 现 。Wilson 说 ， 举 个 例 





子 ， 介 数 中 心性 ( (btweenness centrality,BC) 统计 之 间 是 “量化 衡量 参 
议院 的 重心 的 很 好 的 方式 ”。 从 SocialAction 中 可 以 明显 地 看 出 只 有 少数 


参议 员 是 作为 同事 之 间 连 接 的 中 心 。Wilson 还 可 以 使 用 SocialAction 的 
交互 聚 类 算法 来 “发 现 民主 党 之 间 在 地 理 上 的 联盟 "。 这 些 发 现 只 是 在 








Wilson 对 SocialAction 数 据 进 行 分 析 之 前 所 未 能 发 现 的 一 些 见解 的 几 个 
例子 。 





SocialAction 数 据 所 揭示 的 一 些 发 现 给 Wilson 留 下 了 很 深 的 印象 
统计 和 可 视 化 的 紧密 连接 帮助 他 发 现 并 把 调查 结果 在 《美国 新 闻 与 世 
界 报道 》 杂 志和 国会 中 报导 ， 且 使 得 人 们 可 以 易于 理解 。SocialAction 
受到 了 很 多 来 自 国 内 的 关注 ， 因 此 《美国 新 闻 与 世界 报道 》 厅 志 能 够 
复制 其 一 些 功 能 ， 为 它 的 在 线 读 者 服务 。 完 成 该 案例 研究 后 ，Wilson 就 
去 了 《Slate》 杂 志 ， 但 他 依然 使 用 SocialAction 进 行 调查 报告 。 对 
SocialAction 的 分 析 还 使 得 美国 棒球 大 联盟 
( (htp: //www.slate.com/id/2180392) 的 类 固 醇 使 用 者 的 社交 网 络 分 析 
增加 了 交互 特征 ， 而 且 后 期 将 会 有 更 多 的 计划 。 











[1] 在 网 络 分 析 中 ， 存 在 4 种 广泛 使 用 的 中 心性 指标 : degree centrality ` 
betweenness、closeness 和 eigenvector centrality。 如 想 要 了 解 更 多 ， 可 以 
访问 http: //en.wikipedia.org/wiki/Centrality ° 
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MERMER AAR, 《SARJ) 的 国家 协会 是 美国 国土 安 
全 中 心 。STARI 有 一 个 世界 性 的 研究 团队 ， 其 宗旨 是 “致力 于 及 时 提供 
指导 如 何 粉 碎 恐 怖 分 子 网 络 ， 减 少 恕 怖 主义 的 发 生 ， 加 强 美国 社会 在 
烈 怖 威胁 面前 的 应 变 能 力 。” 该 协会 的 一 名 成 员 是 James Hendrickson, 
他 是 研究 犯罪 学 的 博士 生 ， 对 分 析 “ 全 球 圣 战 *( (Gobal Jihad) 的 社交 网 
络 感 兴趣 。 





以 往 的 研究 已 经 指出 了 激进 化 对 于 念 怖 组 织 的 维持 和 宣传 的 重要 
性 。 虽 然 人 们 已 经 从 心理 学 角度 很 好 地 描述 了 激进 化 过 程 ， 
Hendrickson 认 为 天 于 钵 怖 主义 的 团体 动态 性 无 法 确切 地 衡量 规模 、 范 
围 和 群体 关系 的 动态 性 。 他 提出 对 “全 球 圣战 ”的 成 员 关 系 的 紧密 程度 
和 类 型 进行 系统 地 比 对 ， 以 评估 他 们 是 否 可 能 参与 铭 怖 袭击 。Marc 
Sageman 是 START 的 一 个 访问 学 者 ， 在 为 其 后 来 出 版 的 畅销 书 
«Understanding Terror Networks) (宾夕法尼亚 大 学 出 版 社 ) 做 调查 研 
完 时 ， 收 集 了 参与 圣战 的 350 多 个 了 玖 怖 分 子 的 数据 库 。Hendrickson 计 划 
对 这 些 数据 进行 更 新 并 正式 应 用 社交 网 络 分 析 ， 并 作为 其 博士 论文 的 
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Sageman 数 据 库 对 每 个 恐怖 嫌疑 分 子 都 包含 30 多 个 变量 。 这 些 变量 


表示 不 同 的 关系 ， 包 括 朋 友 、 家 庭 成 员 和 教育 合作 关系 。Hendrickson 
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台 使 用 UCINET 工 具 进 行 分 析 ， 可 以 对 其 中 的 一 些 假设 进行 分 析 。 然 
而 ， 他 相信 UCINET 不 利于 探索 和 生成 新 的 假设 。 最 初 ，Hendrickson 对 
于 使 用 可 视 化 技术 来 分 析 表 示 怀 疑 。 他 更 喜欢 量化 证 明 统 计 的 意义 ， 
而 不 是 依赖 于 人 们 对 图 像 的 主观 判断 。 然 而 ， 他 说 对 SocialAction 的 可 
视 化 统计 减少 了 他 的 这 种 担忧 。 





特别 地 ，SocialAction 的 多 样 性 特征 有 利于 Hendrickson 的 探索 。 

SocialAction 人 允许 用 户 分 析 不 同 的 关系 类 型 ， 而 不 会 强迫 用 户 下 载 新 的 
数据 集 。 可 视 化 显示 了 选择 的 关系 之 间 的 边 连接 ， 但 是 节点 的 位 置 是 
保持 稳定 的 ， 这 样 有 利于 理解 。 同 时 ， 统 计 结 果 也 自动 基于 新 选 定 的 
结构 进行 重新 计算 。 举 个 例子 ， 图 10-6a 只 选择 “圣战 者 ”之 间 的 关系 。 
(和 密集 图 10-3a 相 比 ， 该 图 显示 了 关系 类 型 。) 这 里 的 节点 是 通过 出 
度 和 入 度 来 排序 的 ， 因 此 红色 节点 表示 其 朋友 最 多 。“ 圣 战 者 ”Osama 
Bin Laden 和 Mohamed Atta 〈 因 参与 9.11 事 件 ， 已 经 为 广为人知 ) 排名 
最 高 。 然 而 ， 当 涉及 宗教 关系 时 ， 出 现 了 不 同 的 “圣战 者 ”核心 人 物 ; 
如 图 10-6b 所 示 。 
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图 10-6: “全 球 圣战 ?社交 网 络 的 多 样 性 特征 的 演示 。a)j 显示 了 朋友 
关系 网 络 ， 其 中 bin Laden 的 知名 度 最 高 。b) 显示 了 宗教 关系 ， 提 供 了 





WAAR AS ed A Ay RA ( 见 彩 图 81) 


在 分 析 了 节点 的 统计 属性 之 后 ，Hendrickson 开 始 对 了 解 个 人 属性 
感 兴趣 。 举 个 例子 ， 他 对 于 回答 如 下 这 样 的 问题 感 兴 趣 :“ 个 人 的 社会 
经 济 地 位 或 教育 水 平 是 否 影响 其 在 恐怖 主义 网 络 中 的 地 位 ? ”当然 ， 社 
交 网 络 数据 不 允许 做 因果 推导 ， 但 是 它 可 能 会 显示 相关 性 。 如 
SocialAction 中 的 统计 排序 ， 用 户 可 以 基于 属性 进行 排序 。Hendrickson 
过 滤 掉 没有 大 学 学 位 、 宗 教 背景 或 工程 专业 的 个 人 ， 然 后 对 结果 进行 
分 析 。 忆 点 属性 、 统 计 过 滤 和 绘图 的 组 合 简化 了 其 定制 的 工作 流 。 
Hendrickson 评 论说 如 果 不 是 因为 可 以 便捷 地 对 SocialAction 进 行 探 索 ， 
他 可 能 无 法 如 此 自由 地 思考 。 这 些 分 析 启 发 Hendrickson 去 思考 一 些 新 
的 、 尚 未 实现 的 属性 来 测试 其 他 假设 。 他 目前 正在 对 Sageman 数 据 库 进 
行 升级 ， 添 加 新 的 属性 ， 这 样 他 可 以 通过 可 视 化 和 统计 方式 寻找 
SocialAction 中 的 模式 。 














Hendrickson 的 使 用 SocialAction 的 经 验 总 结 给 他 的 论文 市 来 了 新 的 
灵感 。 虽 然 他 在 研究 该 案例 很 信之 前 就 对 数据 集 进 行 访问 ， 并 通过 其 
他 SNA 软 件 进行 分 析 ，SocialAction 提 供 的 统计 和 可 视 化 相 结合 的 方式 
允许 采用 新 的 、 有 趣 的 方式 来 探索 。 因 此 ，START 中 心 有 兴 趣 将 
SocialAction 作 为 默认 的 网 络 分 析 工 具 ， 供 那些 希望 访问 其 数据 库 的 内 
部 和 外 部 用 户 使 用 。 








START 中 心 提 供 的 SocialAction 的 另 一 个 用 途 是 查看 随 着 时 间 推 移 
的 网 络 。 在 他 们 的 全 球 恕 怖 主义 分 子 网 络 中 ， 节 点 可 以 通过 参与 式 怖 
袭击 的 两 个 人 是 否 在 同一 地 区 、 使 用 相同 武器 或 来 自 相 同 地 区 进行 连 
接 。 连 接 的 边 还 可 以 有 时 间 竺 征 。 举 个 例子 ， 一 条 边 可 以 表示 某 个 年 
份 的 娩 怖 袭击 。 使 用 的 边 的 类 型 取决 于 该 分 析 师 想 要 回答 什么 类 型 的 
问题 。 除 了 网 络 图 以 外 ， 用 户 可 以 看 到 一 个 堆栈 图 ， 如 图 10-7 所 示 。 每 
个 节点 通过 一 条 边 表示 ， 每 一 列表 示 一 种 边 类 型 。 每 个 列 的 节点 密度 
表示 节点 在 该 类 型 的 边 的 网 络 中 的 排序 。 市 点 颜色 是 基于 其 在 所 有 边 
类 型 的 总 体 排序 来 确定 的 。 














在 图 10-7 中 显示 了 两 个 堆栈 直方 图 ， 它 表示 丽 怖 分 子 网 络 随 着 时 间 
推移 的 演变 。 这 种 特殊 的 网 络 有 两 种 类 型 的 节操 ， 人 愁 怖 组 织 和 他 们 组 
织 的 进行 灵 怖 袭击 的 国家 。 国 家 市 点 按 字 母 序 排列 ， 如 图 10-7a 的 堆栈 
图 ， 而 所 有 的 芍 怖 组 织 都 出 现在 图 10-7b 中 。 每 个 年 份 的 广 点 深度 是 基 
于 市 点 在 网 络 中 的 出 入 度 。 市 点 是 根据 它们 的 出 入 度 来 着 色 的 (红色 
表示 出 入 度 很 高 ， 绿 色 表示 很 低 ) ， 在 高 峰 年 份 时 添加 标签 (在 1992 
年 有 一 个 明显 的 恐怖 袭击 高 峰 ) 。 从 该 图 中 可 以 解释 各 种 趋势 ， 比 如 
意大利 在 前 些 年 有 很 多 不 同 的 芍 怖 组 织 袭 击 ， 而 印度 在 后 面 的 几 年 达 
到 您 怖 袭击 高 峰 。 














由 于 鸭 怖 组 织 的 数量 要 远 远 大 于 国家 ， 图 10-7b 有 一 些 难以 理解 。 
然而 ， 这 些 可 视 化 是 交互 的 ， 而 且 用 户 可 以 通过 名 字 对 它们 进行 过 


滤 。 因 此 ， 如 果 一 个 分 析 师 输入 “Armenia” 这 个 单词 ， 只 有 包含 该 词 的 
了 恐怖 组 织 世 点 才 会 被 现实 (比如 “Armenian Secret Army for the 
Liberation of Armenia” (为 亚美尼亚 解放 的 亚美尼亚 秘密 军 ) , “Justice 
Commandos for the Armenian Genocide” (为 亚美尼亚 种 族 炙 绝 的 正义 突 
击 队 ) ) 。 





图 10-7: 突出 两 个 演化 网 络 的 时 间 趋 势 的 堆栈 图 。a) ina SA 
点 的 演化 ，b) 显示 釜 饰 组 织 节 点 的 演化 ( 见 彩 图 82) 


2007 年 ， 图 10-7 所 示 的 时 间 可 视 化 在 纽约 科学 展览 第 展示 ， 作 为 网 
络 动态 可 视 化 竞赛 的 一 部 分 ( (htp: //vw.indiana.edu/O7netsci/) 。 我 将 
引用 一 个 突出 了 SocialAction 的 某 些 目标 的 评语 来 结束 本 章 ， 也 许 它 正 
是 道 出 了 创建 可 视 化 之 美的 本 质 内 酒 : 





Pare me EAI AIS, BUFR EAM AMAR EA” > 视觉 上 吸引 

人 ， 而 且 采 用 了 一 种 浑 染 方式 ， 为 读者 创建 了 一 种 景观 。 这 种 泻 染 方 
式 给 外 行 的 观众 架 起 了 一 座 桥梁 ， 市 领 他 们 进入 专业 领域 。“ 数 据 领 域 
之 旅 ” 变 得 如 此 让 人 和 舒服， 它们 可 能 很 快 瑟 会 出 现在 你 附近 的 旅行 社 的 
特定 目的 地 。Perer 的 可 视 化 效 末 为 我 们 展现 了 无 比 生 动 的 灵 饰 分 于 网 
络 。 对 念 饰 主义 的 分 析 给 人 入 们 市 来 思维 上 的 乐趣 和 视觉 上 的 舒适 可 能 
苹 揭 示人 娩 怖 本 质 的 最 住 方式 一 一 分 析 它 ， 而 不 锐 它 吓 晓 住 。 最 后 ， 其 
可 视 化 效果 带 来 了 期 望 更 合理 的 处 理 方式 ， 这 和 慌 怖 主义 试图 灌输 给 
人 们 的 刚好 相反 。 


—Ingo Günther 


东 泵 国立 大 学 美术 与 首 乐 ， 日 本 
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第 11 章 ”美丽 的 历史 : 对 维基 百科 可 视 化 
MartinWattenberg 和 FernandaVikgas 


在 维基 百科 的 最 初 几 年 ， 我 们 创建 了 一 些 可 视 化 来 说 明 在 线 百科 
全 书 如何 运 作 。 本 章 将 市 你 重 温 我 们 的 创建 过 程 ， 从 最 初 的 草图 设计 
开始 ， 到 解决 方案 的 实践 直至 科学 论文 的 发 表 。 在 这 个 过 程 中 ， 你 将 
领略 到 :在 所 有 步 又 中 使 用 真实 数据 工作 的 重要 性 ， 初始 阶段 使 用 粗 
糙 、 原 始 的 可 视 化 的 好 处 ; 最 后 一 已 ， 发 现 可 视 化 只 是 一 个 庞大 的 分 
析 系 统 中 的 一 个 环节 。 本 章 所 讲述 的 故事 还 说 明了 从 感知 某 个 领域 有 
可 能 可 以 从 可 视 化 中 受益 ， 到 确定 可 视 化 应 该 做 到 什么 程度 ， 直 觉 能 
够 给 成 功 的 可 视 化 项 目 带 来 指导 作用 。 











摘 述 分 组 编辑 


故事 起 始 于 2003 年 。 我 们 两 个 人 在 IBM 的 协同 用 户 体 验 人 研究 实验 
宇 工 作 ， 该 实验 圣人 研究 人 们 如 何 一 起 在 线 工作 。 我 们 发 现在 互联 网 上 
正在 兴起 一 些 新 的 协作 模式 ， 于 是 想 对 它们 进行 研究 。 我 们 有 很 多 选 
择 ， 那 时 正 值 “Web 2.0? 刚 刚 开始 兴起 ， 而 维基 百科 更 是 让 我 们 格外 着 








2003 年 ， 也 就 是 在 线 百 科 全 书 诞生 两 年 ， 很 多 人 还 不 知道 这 个 网 
站 ， 而 那些 知道 它 的 人 却 对 这 种 开放 的 编辑 模式 持 严 重 怀 疑 的 态度 。 
我 们 自己 也 抱 有 一 定 的 怀疑 ， 但 是 发 现 很 多 文章 都 很 有 意思 且 很 有 
用 。 到 底 发 生 了 什么 ? 这 样 随意 的 过 程 怎 么 能 够 产生 高 质量 的 产品 ? 
除了 这 些 最 初 的 好 奇 ， 这 些 困惑 感 往往 是 一 种 “丰富 ”的 研究 领域 的 标 
志 。 我 们 决定 进行 调研 。 维 基 百 科 上 的 文章 为 何 能 够 拥有 这 么 高 的 品 
m? 为 什么 我 们 没有 在 维基 百科 上 看 到 存在 于 很 多 在 线 社区 中 的 疯 
JE > REMENTI? 























数据 


为 了 回答 这 些 问 题 ， 我 们 需要 有 更 多 的 了 解 。 第 一 步 是 找到 原始 
数据 (正如 在 我 们 的 任何 一 个 可 视 化 项 目 中 所 做 的 ，。 对 于 维基 百 
科 ， 其 数据 并 不 是 数据 库 中 的 一 个 数值 表 ， 而 是 由 各 种 版 本 的 文档 和 
编辑 历史 组 成 的 一 个 集合 。 维 基 百 科 创 始 人 最 初 做 出 的 一 个 英明 的 决 
策 是 为 每 个 页 面 给 公众 保留 一 个 完整 的 版 本 历史 。 正 如 我 们 最 终 所 认 
识 到 的 ， 它 对 于 维基 百科 的 适应 能 力 有 关 至 天 重要 的 影响 一 一 但 是 随 
着 我 们 展开 调查 ， 主 要 感觉 还 是 为 可 以 使 用 这 些 数据 而 感到 非常 高 
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对 于 一 个 普通 读者 ， 维 基 百 科 仅 仅 是 一 个 庞大 的 文章 集合 ， 和 传 
统 的 百科 全 书 很 相似 。 但 是 在 维基 百科 的 内 部 ， 其 结构 是 复杂 的 。 因 
为 大 多 数 人 现在 知道 ， 每 个 页 面 上 有 一 个 链接 ， 读 者 可 以 通过 该 链接 
编辑 文本 。 男 外 两 个 受到 关注 较 少 的 链接 被 标记 为 天 于 讨论 和 历史 。 
扩 击 前 一 个 链接 会 进入 对 话 页 面 ， 读 阁 和 编辑 可 以 在 该 页 面 中 探讨 一 
篇 文章 。 这 些 页 面 内 容 丰富 ， 从 关于 页 面 内 容 的 讨论 到 寻求 家 庭 作 业 
帮助 ， 表 示 的 是 维基 百科 的 “ 非 内 容 * 页 面 。 然 而 ， 到 页 面 的 编辑 历史 
的 那个 链接 马上 引起 了 我 们 的 兴趣 。 

















编辑 历史 〈 见 图 11-1) ， 包 含 了 指向 所 有 前 期 版 本 的 完整 文本 的 链 
授 的 列表 ， 同 时 提供 了 关于 作者 的 信息 、 编 辑 时 间 以 及 评论 。 评 论 是 
可 选 的 ， 下 是 给 作者 一 个 机 会 来 解释 本 次 编辑 的 目的 ， 但 十 编辑 时 间 
和 作者 这 两 个 信息 是 目 动 写 到 日 志 中 的 。 如 琳 某 个 编辑 没有 登录 到 系 
统 ， 则 记录 该 用 户 的 IP 地 址 来 取代 其 用 户 名 。 














维基 百科 的 编辑 历史 在 2003 年 已 经 很 大 了 ， 而 到 今天 则 更 是 达到 
了 巨大 的 地 步 。 当 然 ， 不 同文 草 所 做 的 编辑 次 数 很 不 相同 。 当 我 们 最 
初 开 始 梳理 时 ， 关 于 “Microso ft* 的 那 篇 文章 共有 198 个 版 本 (总 共 是 
6.3MB 的 文本 ) ， 而 关于 “Cat” 的 那 篇 文章 却 只 有 54 个 版 本 。 最 开始 ， 
我 们 写 了 一 个 程序 直接 从 该 网 站 上 下 载 编 辑 历史 。 但 是 ， 我 们 很 快意 
识 到 这 是 一 种 很 不 友好 的 方式 ， 因 为 它 会 给 维基 百科 的 服务 句 市 来 压 











力 ， 因 而 ， 我 们 使 用 了 维基 百科 网 上 免费 提供 的 一 份 大 文件 。 如 果 你 
想 对 其 中 的 任何 数据 进行 可 视 化 ， 最 好 的 方式 就 是 目 己 下 载 一 份 该 文 
件 快照 的 最 新 版 本 !。 
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图 11-1: 维基 百科 上 关于 “Chocolate” 条 目的 讨论 页 面 : 该 页 面 列 出 了 


给 文章 所 做 的 每 一 个 修改 ， 包 括 谁 做 的 编辑 ， 什 么 时 候 做 的 等 
[1] 参考 http: //en.wikipedia.org/wiki/Wikipedia:Snapshots ° 


历史 流 : 对 编辑 历史 进行 可 视 化 





维基 百科 可 以 显示 儿 组 不 同 版 本 的 差别 ， 突 出 所 增加 和 删除 的 文 
字 ， 但 是 我 们 希望 能 够 看 到 一 篇 文章 随 着 时 间 推 移 的 所 有 编辑 的 总 体 
概览 。 为 了 达到 这 个 目的 ， 我们 引入 了 一 种 新 的 称 为 “历史 流 *( (hstory 
flow) 的 可 视 化 技术 。 








即使 我 们 手中 有 数据 ， 我 们 也 无 法 直接 开始 编写 图 形 代 码 。 我 们 
需要 自己 计算 出 相 邻 的 文章 之 间 的 差别 。 找 出 两 篇 文章 的 差异 出 现 的 
位 置 以 及 内 容 间 的 具体 区 别 ， 这 看 起 来 像 个 日 常 的 运作 程序 ， 类 似 于 
普通 用 户 使 用 的 应 用 程序 Microsoft Word 以 及 开发 者 们 使 用 的 类 似 版 本 
控制 软件 这 样 的 开发 者 工具 。 但 十 这 种 做 法 实际 上 比 看 起 来 更 灵活 一 
Ho, BOR (可 能 也 正 因为 ) 这 个 问题 已 经 被 人 们 研究 了 很 长 时 间 ， 最 
终 发 现 不 存在 最 佳 的 方式 来 实现 这 个 功能 。 











目前 的 挑战 在 于 不 存在 唯一 的 某 种 方式 能 够 插 述 文本 之 间 的 区 
别 。 举 个 例子 ， 考 虑 以 下 两 个 句子 : 


“行动 迅速 的 标 色 狐狸 跳 过 了 大 柱子 ( (Te quick brown fox jumped 


over the big post) ° ” 


“大 的 标 色 的 狐狸 跳 过 了 次 受 ( (Te big brown fox jumped over the 


clay pots) ° ” 


大 多 数 算法 能 够 告诉 你 和 第 一 个 句子 相 比 ， 在 第 二 个 句子 中 ， 单 
词 quick (迅速 的 ) 被 删除 了 ， 而 单词 cay (ee) 是 新 增 的 。 但 是 单 
词 “大 ” 呢 ? 它 是 否 是 在 一 个 地 方 被 插入 了 而 在 男 一 个 地 方 删除 了 ， 或 
者 只 是 简单 地 从 结尾 移 到 开头 ? 类 似 地 ， 单 词 post (柱子 ) 是 否 是 被 删 
掉 并 由 单词 pots (az) 代替 ， 或 者 “post" 这 个 单词 的 字母 序 被 重新 组 合 
成 了 “pots”? 





不 同 的 解释 在 逻辑 上 都 是 一 致 的 ， 因 此 目标 是 选择 一 个 在 特定 上 
下 文中 有 意义 的 算法 。 对 我 们 而 言 ， 我 们 认为 编辑 可 能 改变 一 块 文本 
位 置 一 一 把 一 个 单词 或 一 个 句子 从 文本 的 一 个 地 方 移动 到 为 一 个 地 方 
一 一 但 是 不 太 可 能 通过 改变 字母 位 置 来 改变 个 别 单词 。 因 此 ， 我 们 选 
择 Paul Heckel 提 出 的 算法 ， 虽 然 该 算法 把 单词 作为 原子 单元 进行 处 理 
ll ， 它 使 我 们 能 够 奶 踪 大 段落 的 位 置 变 换 。 该 算法 的 输出 是 两 个 序列 
之 间 的 一 组 对 应 ， 其 形式 是 “文件 A 中 的 第 5 个 单词 和 文件 B 中 的 第 127 个 
单词 对 应 。” 














Heckel 的 算法 实现 很 规 单 ， 我 们 很 快 融 一 切 准 备 融 绪 并 开始 分 析 。 
对 于 每 一 篇 文章 ， 我 们 有 每 个 版 本 的 文本 ， 还 有 不 同 版 本 之 间 的 “对 
应 ”关系 。 但 是 应 该 如 何 对 不 同 版 本 进行 展示 ? 下 和 完 ， 因 为 这 是 基于 时 
间 的 数据 ， 使 用 x 轴 表示 次 序 是 有 意义 的 ， 把 第 一 个 版 本 放 在 左边 ， 第 
二 个 版 本 放 在 右边 等 。 这 种 方式 适用 于 查看 一 篇 文章 的 编辑 历史 ， 
为 文档 中 每 个 位 置 都 像 一 条 “河流 ”上 的 不 同 “ 清 流 ”。 刚 开始 ，x 轴 只 是 

















表示 序列 化 信息 ， 每 个 版 本 是 一 个 坐标 点 ， 不 同 坐 标点 之 间 的 像素 数 
相同 ， 然 后 我 们 加 入 一 个 根据 编辑 时 间 的 设置 版 本 间距 离 的 选项 ， 因 
此 间 隅 很 短 的 版 本 之 间 在 空间 距离 上 也 很 紧密 。 这 两 种 查看 数据 的 方 
式 后 来 都 被 证 明 是 很 有 用 的 。 





接 下 来 ， 我 们 需要 对 文档 位 置 和 段落 之 间 的 对 应 关系 进行 编码 。 
我 们 决定 使 用 竖 线 描绘 版 本 ， 其 长 度 与 每 个 版 本 的 长 度 相对 应 。 实 际 
上 上,，y 轴 对 每 个 版 本 内 部 的 文档 位 置 进 行 编码 。 一 旦 我 们 做 出 这 个 决 
定 ， 孢 很 容易 知道 应 该 如 何在 一 个 版 本 到 另 一 个 版 本 间 画 线 来 描述 匹 
配 关 系 了 ， 如 11-2 所 示 〈 它 是 我 们 在 开始 编码 前 在 白板 上 手工 描绘 的 一 
个 素描 ) 。 








我 们 第 一 次 计算 出 的 版 本 看 起 来 大 致 如 图 11-3 所 示 ， 它 摘 绘 了 单词 
Abortion (流产 ) 在 2003 年 的 页 面 编辑 历史 。 该 图 看 起 来 有 些 丑 陋 且 让 
人 费解 ， 但 是 存在 一 种 清晰 的 结构 ， 甚 至 是 某 些 特征 使 我 们 开始 怀疑 
代码 中 是 否 出 现 了 问题 。 举 个 例子 ， 你 会 注意 到 版 本 4 中 有 一 条 明显 的 
间 际 。 我 们 手工 检查 了 数据 ， 确 定 这 并 不 是 代码 的 错误 : 我 们 看 到 的 
版 本 是 被 一 个 恶意 用 户 删 除 掉 了 文章 的 大 部 分 内 容 。 啊 哈 ! 该 可 视 化 
已 经 开始 把 我 们 的 注意 力 吸 引 到 该 文章 的 编辑 历史 的 一 些 重 大 事件 
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图 11-2: 历史 流 的 可 视 化 机 制 示意 图 ( 见 彩 图 83) 








图 11-3: 历史 流 的 一 个 早期 可 视 化 版 本 ， 通 过 简单 的 线条 对 连续 版 本 
中 都 完整 的 文本 片段 进行 连接 





由 于 通过 手工 方式 查看 原始 数据 源 很 繁琐 ， 我 们 很 快 增加 了 一 个 
特性 ， 能 够 在 面板 右 侧 显 示 每 个 版 本 的 原始 文本 。 这 在 可 视 化 开发 中 
很 典型 :在 获取 到 对 原型 可 视 化 的 总 体 概 哎 之 后 ， 能 够 查看 详细 信息 

常 是 一 种 很 好 的 方式 。 这 不 仅 是 用 户 通常 想 要 的 特性 ， 而 且 提供 了 
一 种 重要 的 方法 来 检查 可 视 化 概览 的 正确 性 。 可 视 化 结构 还 是 难以 阅 
读 ， 因 此 我 们 决定 进行 相应 的 “填充 ”， 即 对 每 对 平行 线 内 部 进行 填 
充 。 图 11-4 显 示 了 填充 结果 。 
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Al 11-4: 历史 流 图 显示 Wikipedia 上 的 “Chocolate” 条 目的 相关 文章 的 文 
本 在 不 同年 份 的 变化 : 颜色 更 深 的 分 块 表示 时 间 更 早 的 文章 ( 见 彩 图 
84) 





结 采 图 厂 易 于 理解 ， 而 且 看 起 来 也 没有 那么 复杂 。 实 际 上 ， 我 们 
现在 认为 存在 自然 的 方式 来 呈现 男 一 种 变量 ， 通 过 对 连接 相应 文章 的 
边 形 进行 着 色 。 


从 技术 思想 上 看 ， 该 算法 工作 如 下 :首先 找到 在 每 个 序列 中 只 发 现 
一 次 的 词 项 单元 ( \tkem)， 然 后 把 这 些 匹 配 扩展 到 更 大 的 连续 分 块 中 。 
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在 网 站 上 的 编辑 历时 很 长 的 页 面 是 否 比 历时 短 的 编辑 页 面 质量 更 
高 ， 我 们 对 这 个 问题 很 感 兴趣 ， 同 样 感 兴趣 的 是 是 否 可 以 以 任何 其 他 
方式 对 编辑 质量 进行 区 分 。 年 份 是 一 个 简单 的 数值 变量 ， 使 用 灰色 来 
描述 是 有 意义 的 ， 如 图 11-4 所 示 。 这 古 我 们 增加 的 第 一 种 彩色 效果 ， 
它 存在 两 个 优点 : 一 征 说 明了 年 代 这 个 维度 ; 二 是 深浅 变化 的 灰色 实 
际 上 使 得 整 张 图 形变 得 更 加 清晰 易 读 。 这 可 能 和 人 们 的 直观 感觉 有 所 
不 同 ,， 但 是 属于 可 视 化 中 的 常见 现象 :增加 额外 信息 实际 上 可 以 帮助 
我 们 理 清 复杂 的 流程 图 。 
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然而 ， 我 们 的 真正 目标 是 要 找到 群 组 编辑 青 后 的 驱动 力 。 因 此 ， 
我 们 需要 对 著作 权 进 行 描述 。 我 们 拥有 必要 的 数据 ， 因 为 每 次 编辑 都 
包含 了 著作 权 信 息 (登录 的 编辑 人 员 的 用 户 名 ， 或 者 匿名 贡献 者 的 IP 
地 址 ) 。 我 们 应 该 如 何 给 每 次 编辑 分 配 颜色 ?我们 希望 有 多 种 颜色 ， 
这 样 可 以 区 分 开 不 同 的 贡献 者 ， 而 且 我 们 希望 任意 一 个 贡献 者 在 不 同 
页 面 的 颜色 都 相同 。 同 时 ， 我 们 硕 望 能 够 区 分 开 匿名 的 和 登 孙 的 页 献 
# [1] 。 








我 们 最 后 决定 采用 不 同 的 编码 方式 ， 通 过 该 方式 应 用 软件 会 为 每 
个 用 户 选择 鲜明 、 炮 和 的 色彩 。 用 户 的 色彩 实际 上 并 不 是 随机 的 ， 而 
是 基于 对 每 个 作者 名 字 的 Java“ 散 列 码 ”( (hshcode)。 这 种 技术 实现 可 以 
确保 每 个 作者 的 色彩 在 流程 图 中 保持 一 至， 而 且 存 在 很 广泛 的 色彩 变 
化 空间 。 对 于 匿名 编辑 ， 我 们 选择 浅 灰 色 来 表示 。 


整体 视觉 效果 很 显 着 ， 如 图 11-5 所 示 。 这 样 ， 用 户 可 以 对 包含 很 多 
匿名 编辑 的 页 面 (显示 一 片 灰 色 ) 和 完全 或 主要 由 登录 用 户 编 辑 的 页 
面 (充满 彩色 显示 ) 之 间 的 区 别 一 目 了 然 。 当 一 篇 文章 的 编辑 工作 主 
要 是 由 一 些 编辑 完成 时 ， 也 可 以 很 容易 区 别 。 为 了 把 作者 名 子 和 色彩 
关联 起 来 ， 我 们 在 屏幕 左 侧 增 加 了 一 些 说 明 。 
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图 11-5: 历史 流 的 彩色 显示 : BE NR Ee NIEA 


( 见 彩 图 85) 

: 对 匿名 用 户 基于 其 IP 地 址 来 分 配 不 同 的 颜色 看 起 来 可 能 有 欺骗 
性 ， 因 为 地 址 和 实际 用 户 之 间 没 有 明显 的 关联 。 不 同 的 人 们 在 不 同时 
间 通 过 公司 网 络 登 录 可 能 会 显示 相同 的 IP 地 址 ， 相 反 地 ， 同 一 个 人 从 
不 同 IP 地 址 进行 编辑 也 很 寻常 。 
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了 这 个 目标 ， 我 们 把 作者 的 故事 做 成 可 点 击 : 选择 一 个 作者 ， 对 流程 
图 进行 着 色 ， 因 此 被 选 定 作者 所 做 出 的 贡献 会 采用 很 鲜亮 的 奶油 色 来 
突出 表示 ， 而 流程 图 的 其 他 区 域 在 显示 上 则 颜色 更 深 ( 见 图 11-6) ° R 
们 在 采取 该 措施 之 前 竹 试 了 一 些 其 他 方案 。 保 持 被 选 定 作 车 用 很 鲜 腕 
的 颜色 显示 而 其 他 作者 用 较 暗 痰 的 颜色 表示 ， 达 到 这 种 效 灯 的 男 一 种 
做 法 是 使 用 日 色 表 示 被 克 定 的 作者 ， 但 是 这 种 方式 并 不 能 突出 选择 ， 
有 反而 会 让 人 费解 ， 因 为 主 视图 中 的 灰色 市 表示 的 是 匿名 编辑 。 
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图 11-6: 奶 酷 模式 显示 的 流程 图 ， 表 示 单 个 作者 随时 间 所 做 出 的 贡献 
( 见 彩 图 86) 








然后 ， 我 们 增加 了 一 些 其 他 小 的 特征 和 编码 ， 但 是 实际 情况 是 开 
发 速度 开始 放 慢 ， 因 为 程序 变 得 很 有 意思 。 实 际 上 ， 它 可 能 是 太 有 
意思 了 ! 我 们 不 再 一 直 写 代码 ， 花 了 很 多 时 间 看 一 篇 又 一 篇 的 文章 ， 
痢 迷 于 各 种 各 样 的 模式 。 这 对 于 可 视 化 开发 始终 是 个 好 兆头 ， 而 从 身 
边 走 过 的 人 篆 常 被 我 们 屏幕 上 的 图 片 所 吸引 ， 开 始 停 下 来 和 我 们 长 时 


间 地 交谈 。 

















可 视 化 允许 我 们 很 快 地 了 解 参与 一 篇 文章 编辑 的 不 同 编辑 人 员 、 
每 个 人 所 做 的 改动 甚至 古 做 出 最 后 的 决定 上 产生 的 分 歧 。 我 们 按 探 住 
了 对 无 数 的 文章 进行 可 视 化 的 冲动 ， 决 定 至 少 在 那个 时 候 ， 可 视 化 工 
作 已 经 完成 了 。 显 然 ， 它 满足 了 我 们 初始 的 目标 ， 采 用 协作 模式 看 起 
来 对 于 调查 很 有 保障 。 接 下 来 ， 我 们 把 注意 力 转 到 使 用 它 来 获取 科学 
上 的 结 





[1] : 还 是 存在 很 多 其 他 方面 我 们 还 没有 探索 。 当 BenFry 独 立 创 建 了 一 
个 历史 流 图 版 本 “revisionist” 来 显示 “Processing” 的 环境 演化 过 程 时 ， 我 
们 看 到 了 一 个 这 样 的 并 行 可 视 化 世界 。 不 是 增加 颜色 和 交互 性 ， 他 采 

用 全 局 的 方式 ， 使 用 优雅 的 曲线 和 在 y 轴 上 文档 位 置 的 变化 ， 使 得 可 以 
很 容易 追踪 到 各 种 不 同 的 变化 。 


历史 流 的 实际 作用 





随 着 我 们 对 文章 的 研究 ， 我 们 开始 采用 了 探索 模式 。 在 查看 了 一 
个 又 一 个 的 流程 图 之 后 ， 我 们 开始 慢 慢 地 认识 到 什么 是 正常 的 ， 什 么 
苹 怪 异 的 。 我 们 还 开始 看 到 一 些 不 同类 别 的 行为 变化 ， 如 “编辑 战 
争 ”， 在 这 些 “ 战 争 ” 中 ， 一 些 编 辑 不 断 地 撤销 别人 的 修改 ， 在 可 视 化 显 
示 上 是 很 醒目 的 之 字 曲 线 图 。 更 重要 的 是 ， 我 们 开始 跟 趴 该 图 片 给 我 
们 提供 的 一 些 线索 。 











如 何 追 肾 可 视 化 线索 ， 从 定性 研究 转移 到 定量 研究 的 一 个 很 好 的 
例子 是 ， 我 们 对 一 些 经 常 被 恶意 算 改 的 文章 如 “Abortion” 条 目的 调查 。 
从 图 乒 中 可 以 很 清晰 地 看 出 恶意 自 改 通常 只 会 在 站 点 上 保留 几 分 钟 的 
时 间 。 当 查看 每 个 版 本 都 显示 一 样 大 的 历史 流 图 时 〈 见 图 11-7) ， 我 们 
看 到 特征 化 的 黑色 裂纹 表示 恶意 删除 ， 当 通过 编辑 时 间 对 版 本 进行 显 
示 时 ， 这 些 裂 纹 通常 就 会 消失 〈 见 图 11-8) ° 
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Al 11-7: “Abortion” 条 目的 页 面 的 编辑 历史 ， 显 示 了 空间 上 等 价 的 不 
同 版 本 一 一 黑色 裂纹 表示 “恶意 删除 "， 即 某 个 用 户 把 某 篇 文章 的 所 有 
内 容 都 删除 掉 的 恶意 行为 ( 见 彩 图 87) 





AJ 11-8: “Abortion? 条 目的 页 面 的 编辑 历史 ， 显 示 了 按时 间 进 行 划 分 
的 不 同 版 本 ( 见 彩 图 89) 


即使 多 次 发 现 这 种 模式 ， 然 而 它 也 并 不 能 构成 科学 依据 。 可 能 我 
们 想到 的 文章 刚好 是 特别 有 争议 的 或 者 监管 恨 好 的 。 为 了 说 明 恶 意 破 
坏 和 快速 修复 实际 上 非常 普及 ， 我 们 需要 考虑 更 多 的 页 面 。 为 此 ,我 
们 对 整个 维基 百科 的 编辑 数据 库 进 行 扫 搞 。 在 同事 Kushal Dave 的 帮助 
下 ， 我 们 创建 了 一 组 标准 可 以 识别 出 特别 明显 的 恶意 破坏 ， 并 实现 





了 一 个 程序 ， 可 以 检查 所 有 满足 这 些 标准 的 编辑 。 结 果 发 现 是 绝 大 多 


数 这 种 恶意 编辑 在 几 分 钟 内 就 被 撤销 了 ， 说 明了 维基 百科 的 编辑 对 于 


对 主观 印象 进行 统计 确认 是 我 们 所 面临 的 最 后 一 道 难题 ， 并 且 这 
种 统计 确认 方式 提供 了 令 人 满意 的 解决 维基 百科 的 初始 问题 的 方式 。 
我 们 没有 看 到 破坏 性 行为 的 证 据 的 原因 不 是 因为 这 种 行为 不 存在 ， 而 
征 因 为 它 往往 可 以 很 快 地 从 公众 视野 中 消失 。 我 们 记录 下 了 这 些 绪 
果 ， 并 提交 了 一 篇 科学 论文 ， 但 是 我 们 对 其 研究 并 没有 就 此 停止 。 











除了 添加 不 同 的 科学 例子 来 支持 我 们 的 理论 ， 还 存在 一 些 数 子 可 
以 很 容易 地 解释 我 们 的 结果 。 反 过 来 ， 可 视 化 从 深度 和 细节 上 给 这 些 
数字 增加 了 可 信和 度 。 我 们 发 现 这 些 结果 存在 很 多 科学 界 领域 外 有 意思 
的 地 方 。 一 方面 ， 那 些 不 熟悉 维基 百科 内 部 运作 模式 的 人 很 快 就 被 在 
RE SR ARIAS, o AT, HE T EA R EAE 
的 研究 人 员 则 会 惊叹 于 其 图 像 的 清晰 度 和 瞬间 所 能 够 展示 的 信息 的 丰 
语 性 。 历 史 流 证 明了 对 在 线 社区 进行 可 视 化 所 强 泗 的 价值 同时 满足 人 
们 对 文化 的 兴趣 和 科学 的 研究 。 








[1] : 我 们 是 通过 寻找 文章 长 度 显 著 减 少 以 及 页 面 中 存在 低俗 文字 来 判 
上 晰 的 。 这 种 方式 当然 无 法 识别 所 有 的 恶意 破坏 ， 但 是 它 所 挑选 出 的 编 
辑 确 实 绝 大 多 数 是 恶意 的 。 





RER: 一 次 对 一 个 人 进行 可 视 化 





2006 年 ， 我 们 重新 访问 了 维基 百科 。 百 科 全 书 人 气 很 旺 ， 我 们 想 
找 出 参与 的 贡献 者 的 更 多 信息 ， 尤 其 是 那些 页 献 了 很 多 编辑 的 核心 活 
跃 用户 。 他 们 是 如 何 分 配 时 间 和 精力 的 ? 我 们 对 于 数据 是 否 匹配 
Yochai Benkler 的 “对 等 生产 ”( (per production) 模 式 特 别 感 兴趣 ， 这 种 
模式 的 行为 包括 从 维基 百科 的 创建 到 Linux 的 创立 。 


我 们 和 一 个 非常 有 才华 的 实习 生 Kate Hollenbach 一 起 决定 对 网 站 
的 管理 员 ( (amins)、 享 受 特权 (如 阻止 其 他 用 户 或 删除 页 面 ， 的 超级 
用 户 的 编辑 历史 进行 分 析 。 管 理 员 通常 在 站 点 上 有 很 长 的 编辑 历史 ， 
而 且 代表 的 是 维基 百科 社区 的 核心 贡献 者 。 








我 们 为 了 了 人 解 该 数据 做 出 的 第 一 个 笑 试 是 创建 了 一 系列 的 图 表 和 
图 形 来 表示 随时 间 变 化 的 活动 水 平 。 创 建 活动 图 本 喘 很 位 单 。 显 示 该 
数据 的 标准 方式 是 一 个 线条 图 ，x 轴 表示 时 间 ，y 轴 表示 编辑 次 数 。 我 
们 制作 了 一 系列 的 这 种 图 表 ， 它 们 虽然 很 清晰 但 是 我 们 感觉 其 信息 量 
还 不 够 丰富 。 和 历史 流 图 不 同 ， 我 们 通过 该 答 试 没有 发 现 意 外 的 模式 
或 者 是 可 以 局 发 新 的 调查 的 线索 。 











其 中 一 个 问题 是 简单 的 图 表 概 括 了 太 多 的 数据 ， 成 十 上 万 的 编辑 
压缩 成 单一 的 数值 时 间 序列 ， 最 终 导 致 我 们 必须 删除 重要 的 信息 。 我 


们 面临 着 可 视 化 项 目 中 一 个 典型 的 抉择 : 随 着 我 们 对 数据 进行 探索 ， 
我 们 应 该 “以 多 低 的 距离 来 飞行 ” 趾 呢 ? 不 存在 先 验 知识 可 以 预先 确定 
是 人 否 存 在 有 趣 的 小 规模 的 模式 。 但 是 既然 我 们 从 “30000 英 尺 的 高 空 还 
无 法 识别 任何 东西 ， 我 们 只 能 选择 飞 得 更 低 。” 


显示 所 有 数据 


为 了 能 够 更 接近 “地 面 "， 我 们 决定 查看 每 个 编辑 人 员 编 辑 过 的 各 
个 页 面 。 对 维基 百科 进行 编辑 是 重复 、 复 杂 的 业务 ， 我 们 觉得 需要 在 
可 视 化 中 反映 这 一 点 。 其 挑战 在 于 一 些 管理 员 页 献 了 10 万 多 份 编辑 ! 
(最 活路 的 用 户 在 两 年 中 平均 每 隔 10 分 钟 就 执行 一 次 编辑 。) 很 少 有 
可 视 化 技术 能 够 把 这 么 多 的 数据 点 显示 成 一 个 可 以 理解 的 图 片 。 





然而 ， 我 们 的 可 视 化 技术 在 泻 染 大 数据 集 上 非 第 有 优势 。 在 学 术 
文献 中 为 人 所 知 的 一 系列 方法 是 关于 像素 填充 ， 它 是 把 每 个 数据 点 表 
示 成 一 个 像素 或 者 最 多 表示 成 一 个 很 小 的 和 矩形。 像素 填充 可 视 化 方式 
征 尽 可 能 地 把 信息 打包 到 屏幕 中 ， 而 其 稠密 性 往往 会 囊 来 一 种 绿 缉 的 
美丽 。 实 际 上 ， 艺 术 家 Jason Salavon 把 整 部 电影 显示 成 一 组 像素 的 美 
丽 的 作品 局 发 了 我 们 去 实现 进一步 的 探索 六 。 











应 用 这 种 技术 ， 我 们 把 管理 员 历 史 中 的 每 次 编辑 在 屏幕 上 表示 成 
小 矩形 。 把 这 些 和 矩形 放置 在 分 块 内 ， 按 时 间 次 友 从 左 到 右 、 从 上 到 下 





查看 。 然 后 ， 由 于 空间 位 置 显示 的 是 序列 化 信息 ， 我 们 只 能 采用 一 种 
方式 : 色彩 。 对 于 所 有 由 像素 填充 的 可 视 化 ， 按 照 定义 ， 确 实 如 此 。 
通常 ， 颜 色 征 由 表示 数值 维度 的 梯度 来 定义 的 。 挑 战 在 于 那些 最 重要 
的 变量 一 一 文章 标题 和 编辑 评论 一 一 都 是 原始 文本 。 





为 了 把 这 些 文本 片段 转换 成 色彩 板 ， 一 种 自然 的 方式 是 尝试 我 们 
在 历史 流 中 使 用 的 相同 的 散 列 编码 技术 。 当 我 们 应 用 该 技术 后 ， 我 们 
确实 开始 看 到 模式 : 一 个 编辑 多 次 处 理 相同 页 面 会 显示 成 一 条 彩色 
块 ， 而 在 其 他 情况 下 ， 我 们 一 点 都 看 不 到 重复 ， 这 表示 对 很 多 页 面 进 
行 编辑 的 编辑 人 员 通 常 只 是 对 每 个 页 面 做 了 一 处 改动 。 虽 然 现 在 看 到 
的 细节 比 以 前 多 得 多 ， 我 们 还 是 觉得 有 用 的 信息 被 隐藏 起 来 了 。 一 方 
面 ， 文 章 名 字 的 结构 不 是 由 散 列 编码 来 捕获 的 。 通 常 ， 相 关 的 文章 以 
相同 的 短语 开始 (如 “List oak Uss”) 。 我 们 意识 到 这 种 结构 可 以 通 
过 字母 序 着 色 方 案 来 保存 ， 其 中 每 个 字符 串 的 首 字母 确定 其 颜色 。 
11-9 解 释 了 着 色 方 案 ， 而 图 11-10 则 说 明了 如 何 构造 流程 图 。 





























1 BB arictes Bi revert: 


l i2 BB copyright revert 
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BB srvitration imap wix 
图 11-9: 对 在 维基 百科 编辑 评论 中 发 现 的 单词 的 色彩 示例 ( 见 彩 图 
89) 


[1] 即 应 该 以 什么 样 的 粒度 来 研究 。 


[2]: 2000 年 ，Salavon 摘 绘 《 泰 坦 尼 到》 为 “有 上 史 ARE 房 最 高 的 电影 
( (Te Top Grossing Film of All Time) (1*1) ” ° 每 部 电影 画面 被 显示 成 
一 个 点 ， 其 色彩 是 所 有 画面 色彩 均值 。 





我 们 所 看 到 的 


一 旦 我 们 采用 这 种 新 的 配色 方案 ， 这 些 图 片 束 成 为 焦点 。 虽 然 编 
辑 历 史 依 然 很 复杂 ， 而 且 需 要 仔细 查看 ， 我 们 看 到 了 更 多 类 型 的 模 
式 。 以 下 几 张 图 像 大 体 说 明了 我 们 所 查看 到 的 。 
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图 11-10: 对 每 次 编辑 的 用 户 评论 的 可 视 化 构建 彩色 图 ( 见 彩 图 90) 





图 11-11 显 示 了 由 两 种 主要 色彩 组 成 的 文章 -标题 编辑 历史 。 我 们 发 
现 这 些 编辑 和 births (HÆ) 与 deaths (死亡 ) 这 两 个 单词 对 应 。 典 型 的 
标题 是 “1893 年 出 生 ”。 该 编辑 所 做 的 是 给 不 同年 份 页 面 增 加 关于 著名 
人 物 的 出 生 和 死亡 信息 。 





图 11-11: 对 birth (HÆ) 和 death (死亡 ) 相关 的 文章 的 编辑 OLY 
图 91) 


有 些 编辑 发 现 了 自己 感 兴趣 的 主题 ， 并 坚持 致力 于 该 主题 。 图 11- 
12 看 起 来 像 一 个 紫色 海洋 ， 该 颜色 对 应 于 前 缀 为 "USS” 或 *United States 
Ship”。 该 编辑 致力 于 编辑 那些 描述 美国 海军 特定 船只 的 页 面 。 





图 11-12: 超过 1000 次 的 编辑 ， 绝 大 多 数 是 针对 标题 以 “USS” 开 头 的 
ME ( 见 彩 图 92) 


查看 了 这 些 图 之 后 ， 我 们 开始 习惯 于 紧密 和 随机 的 颜色 数组 ， 偶 
尔 被 完全 相同 的 色彩 干扰 。 因 此 ， 当 看 到 图 11-13 中 一 些 区 域 的 颜色 形 
成 一 条 彩带 时 ， 我 们 感到 大 吃 一 惊 。 








图 11-13: 彩带 ( 见 彩 图 93) 





这 种 市 来 视觉 冲击 的 模式 表示 了 按 字 母 序 排列 的 文章 标题 。 虽 然 
从 有 时 会 出 现 短 字母 序 模式 ， 但 是 我 们 看 到 了 很 多 长 字母 序 模式 ， 有 
的 非常 长。 这 是 值得 研究 的 一 个 非常 好 的 先例 。 为 什么 会 发 生 ? EX 
会 对 维基 百科 市 来 什么 样 的 影响 ? 











有 些 彩 带 看 起 来 很 微妙 。 而 其 他 的 则 看 起 来 如 图 11-14。 谁 能 够 做 
到 如 此 有 序 的 编辑 ? 当 我 们 查看 用 户 页 面 时 ， 发 现 是 由 一 个 “机 融 
人 ”完成 的 :设计 了 一 个 软件 程序 ， 用 于 执行 目 动 编辑 。 在 这 种 情况 
下 ， 这 些 编辑 包含 了 大 量 的 关于 地 理 位 置 的 文章 的 基础 分 类 。 





图 11-14: “机 器 人 ”( 见 彩 图 94) 


分 析 数 据 


对 于 历史 流 ， 我 们 决定 通过 统计 学 方法 对 一 些 视觉 印象 进行 验证 
一 一 举 个 例子 ， 彩 带 问 题 表示 按 字 母 序 的 编辑 。 首先 ， 我 们 写 了 一 个 
程序 可 以 识别 这 些 序列 ， 并 根据 出 现 频 度 计算 概率 ， 验 证 它 不 是 随机 
事件 。 然 后 ， 我 们 进一步 研究 。 如 采 很 多 用 户 是 以 字母 序 来 编辑 的 ， 
古 否 表示 标题 按 字 和 母 序 排列 在 前 的 文 草 吸引 了 更 多 的 注意 力 ? 这 看 起 
来 可 能 有 些 编辑 会 乐观 地 开始 长 期 编辑 很 多 页 面 ， 而 最 终 却 只 是 半途 
而 废 。 为 了 测试 假设 而 完成 数据 收集 后 ， 我 们 发 现在 文章 标题 和 编辑 
次 数 之 的 字母 位 置 间 存 在 反 向 关联 ， 这 证 实 了 我 们 的 直觉 ， 以 子 
母 "a" 开 头 的 文章 的 被 编辑 次 数 要 远 比 以 字母 “z" 开 头 的 文章 多 。 但 
征 ， 这 种 关系 也 不 是 绝对 的 ， 举 个 例子 ， 以 字母 所 ?开头 的 文章 ， 由 于 
其 包含 的 列表 数目 最 多 ， 其 编辑 次 数 也 最 多 ， 但 是 这 种 关系 还 是 足以 
作为 统计 上 的 一 个 重要 参考 。 这 些 彩 带 使 我 们 更 细致 深入 地 查看 编辑 
征 如 何 使 用 列表 来 组 织 他 们 目 己 的 以 及 别人 的 工作 。 这 种 现象 和 
Benkler 的 “对 等 生产 "理论 是 一 致 的 ， 在 该 理论 中 ， 工 作 被 划分 成 小 的 
单元 ， 人 们 可 以 目 己 分 配 时 间 。 可 祝 化 促使 我 们 对 初步 研究 的 问题 得 
到 满意 的 解决 。 























结束 语 


正如 我 们 的 故事 所 示 ， 创 建 可 视 化 会 面临 错误 的 开始 和 和 死 明 同 。 
但 是 ， 虽 然 道路 是 曲折 的 ， 但 它 并 不 是 随机 的 。 我 们 给 出 的 两 个 例子 
都 遵循 一 致 的 过 程 ， 它 是 我 们 通过 对 过 去 的 几 十 次 可 视 化 不 断 进 行 完 
善 得 出 的 。 以 下 是 我 们 在 所 有 的 可 视 化 项 目 中 总 结 出 的 3 条 基本 准则 : 


采用 真实 数据 


获取 到 好 的 数据 往往 既 困 难 又 折磨 人 。 不 论 是 谈判 获得 数据 库 访 
问 权 限 的 法 律 合同 还 是 写 一 个 程序 从 Web 中 获取 信息 ， 为 可 视 化 获取 
原始 材料 是 很 困难 的 。 可 能 由 于 这 个 原因 ， 很 多 人 会 笑 试 多 任务 并 
发 ， 甚 至 是 在 他 们 还 处 在 获取 原始 数据 过 程 时 ， 束 开始 设计 可 视 化 。 
根据 我 们 的 经 验 ， 这 种 做 法 绝 大 多 数 情况 下 是 错误 的 。 举 个 例子 ， 在 
Chromogram 项 目 中 ， 只 有 在 查看 一 组 相关 的 文章 标题 时 ， 我 们 才 意 识 
到 按 字母 序 的 着 色 方 案 可 能 是 有 意义 的 。 

















尽早 并 经 常 进行 可 视 化 一 一 但 是 知道 该 什么 时 候 开 始 对 于 其 他 类 
型 的 软件 开发 ， 迭 代 开 发 是 很 重要 的 。 每 个 项 目 都 开始 于 一 系列 的 设 
计 草 图 。 对 于 历史 流 ， 这 些 草图 最 终 慢 慢 发 展 成 为 最 终 的 可 视 化 。 而 
对 于 Chromogram 项 目 ， 我 们 抛弃 了 所 有 的 草图 ， 从 男 一 个 思维 角度 查 
看 数据 。 在 每 一 种 情况 下 ， 我 们 都 对 细 市 粒度 进行 了 调整 (ERA 














BE") 。 对 于 历史 流 ， 增 加 对 不 同 作者 的 着 色 区 分 和 编辑 年 份 的 指示 说 
明 突 出 了 可 视 化 视图 的 重心 。 而 对 于 Chromogram 项 目 ， 在 把 数据 以 可 
能 的 最 细 粒 度 展示 前 我 们 没有 获取 到 任何 信息 。 磷 代 并 不 能 一 直 持 
续 ， 因 为 我 们 需要 注意 自己 已 经 做 的 所 产生 的 效果 。 历 史 流 和 
Chromogram 这 两 个 可 视 化 项 目 都 可 以 进一步 完善 ， 但 是 它们 都 达到 了 
我 们 所 期 望 看 到 的 那个 阶段 。 














注意 更 大 艺 围 的 过 程 


可 视 化 仅仅 是 更 大 范围 的 分 析 链 中 的 一 个 步 又 而 已 。 在 整 条 分 析 
链 中 ， 起 始 于 一 个 问题 (为 什么 维基 百科 可 以 工作 ? ) 或 者 是 一 个 模 
糊 的 调查 领域 (这 些 维基 百科 的 编辑 是 如 何 做 到 的 ? ) ， 然 后 是 分 
BT > 文档 记录 和 结果 展示 。 一 个 恨 好 的 可 视 化 会 注重 整个 过 程 中 的 链 
接 ， 对 正确 的 信息 进行 编码 来 驱动 最 初 的 调查 ， 并 保持 正确 的 思维 角 
度 ， 从 而 促进 后 期 的 分 析 以 及 对 结 采 的 交流 。 





第 12 章 “把 表 转 换 成 树 ， 把 并 行 集 发 展 成 意义 深 


AJH Robert Kosara 


学 术 软 件 项 目 往往 会 从 一 个 初始 想法 有 机 性 地 发 展 成 复杂 、 难 以 
使 用 的 项 目 ， 从 而 可 以 显得 足够 新 帘 ， 用 于 发 表 论 文 。 一 些 特征 通 营 
征 在 最 后 一 分 钟 才 被 添加 ， 其 目的 仅仅 是 为 了 能 够 给 论文 “润色 ”， 而 
几乎 不 考虑 如 何 集成 这 些 特 征 或 者 如 何 改变 程序 的 基础 架构 以 适应 这 


HORE ° 








结果 是 很 多 程序 都 是 被 杂乱 地 拼凑 在 一 起 ，bug 很 多 而 且 坦 白 说 看 
起 来 很 让 人 尴 座 。 结 果 是 这 些 软 件 并 没有 和 论文 一 起 发 布 ， 这 导致 产 
生 一 个 最 根本 的 可 视 化 问题 ， 再 生性 在 理论 上 是 可 能 的 ， 而 在 实践 中 
很 少 能 够 做 到 。 很 多 程序 和 新 技术 也 是 从 零 开 始 开 发 构建 ， 而 不 是 基 
TERIN 











解决 这 种 问题 的 最 佳 模式 是 尽 可 能 早 地 发 布 软件 ， 然 后 再 不 断 完 
善 和 重 构 它 ， 这 样 软件 可 以 反映 项 目的 全 局 设计 目标 。 然 而 ， 很 少 有 
这 么 做 的 ， 因 为 重新 实现 《或 者 彻底 重 构 ) 没有 带 来 什么 学 术 价值 。 
相反 地 ， 人 们 的 做 法 是 局 动 下 一 个 项 目 。 





“并 行 集 *( (Prallel Sets) 最 初 的 原型 实现 
( (htp: Weagereyes.org/parallel-sets) 和 上 述 方 式 并 没有 什么 区 别 ， 但 是 


为 了 把 学 术 思 想 转变 成 真正 应 用 ， 我 们 需要 制订 一 个 项 目 规划 。 

此 ， 基 于 经 过 长 时 间 酝 酿 总 结 出 的 对 必要 的 内 部 结构 的 一 个 更 好 的 理 
解 ， 我 们 开始 重新 思考 并 重新 设计 它 。 在 这 个 过 程 中 ， 我 们 不 仅 给 项 
目 增加 了 工程 化 思想 ， 而 且 修 改 其 生成 的 可 视 化 来 理 清 其 基础 思想 。 








分 类 数据 


学 术 文 献 中 描述 了 数 以 百 计 的 可 视 化 技术 (每 年 增加 更 多 ) ， 但 
征 只 有 少数 特定 的 技术 使 用 了 分 类 数据 。 这 种 数据 只 包含 一 些 特定 意 
义 的 数值 《和 连续 的 数值 数据 不 同 ， 数 字 代表 本 身 ) 。 例 子 包括 经 典 
的 普查 数据 ， 如 性 别 (男性 或 女性 ) 、 种 族 、 建 筑 类 型 、 使 用 的 取暖 
燃料 等 。 实 际 上 ， 分 类 数据 对 很 多 真实 世界 的 分 析 任 务 是 至 天 重要 
的 。 我 们 最 初 设计 该 技术 的 目的 是 源 于 一 个 庞大 的 客户 调查 ， 该 调查 
包 侣 99 个 多 选 题 ， 发 给 近 10 万 的 接收 者 。 调 碍 问卷 询问 人 们 如 清洁 剂 
和 其 他 家 用 物品 这 样 的 日 党 消 费 品 ， 以 及 如 家 庭 收 入 、 和 孩子 个 数 、 孩 
子 年 龄 这 样 的 人 口 问 题 等 。 即 使 在 可 以 收集 到 准确 的 信息 的 情况 下 

(如 年 龄 ) ， 该 调查 也 会 把 结果 值 组 合成 不 同 的 分 组 ， 这 些 组 合 可 以 
用 于 后 期 的 分 析 。 这 使 得 可 以 对 所 有 维度 进行 闫 格 分 类 ， 而 使 用 传统 
方法 几乎 无 法 可 视 化 。 

















在 这 章 中 ， 我 们 将 使 用 描述 关于 在 泰坦 尼克 号 上 的 人 们 的 数据 集 
作为 例子 来 说 明 “ 并 行 集 *。 如 表 12-1 所 示 ， 我 们 了 解 每 个 乘客 的 旅行 


舱 等 级 (一 等 舱 、 二 等 答 、 三 等 舱 旅 客 或 工作 人 员 ) 、 性 别 、 年 龄 
(成 年 或 小 孩 ) ， 以 及 是 否 幸存 。 


表 12-1: 关于 泰坦 尼克 号 的 数据 集 


维度 值 

舱位 等 级 -等 舱 / 二 等 舱 / 三 等 舱 / 工 作 人 员 
性 别 女 / 男 

Me RFT 是 / 否 

年 龄 小 孩 /成 人 





实际 上 只 有 3 种 可 视 化 技术 可 以 真正 在 分 类 数据 上 工作 良好 WÉ 
图 ( (teemap)( (Sneiderman 2001) 、 锐 向 图 ( (msaic plot)( (Teus 
2002) 和 并 行 集 。 其 原因 是 在 数据 的 离散 领域 和 大 多 数 可 视 化 变量 
(位 置 、 长 度 等 ) 的 连续 领域 之 间 存 在 不 匹配 。 当 只 有 一 些 维度 是 连 
续 的 时 ， 把 分 类 数据 作为 数值 的 方式 是 可 以 接受 的 ， 但 是 当 所 有 数据 
都 是 分 类 数据 时 ， 这 种 方式 会 变 成 完全 无 用 的 〈 见 图 12-1) 。 虽 然 绝 
大 多 数 的 数值 数据 集 的 自然 分 布 使 得 收集 至 少 和 数值 一 样 多 的 粗略 分 
布 是 可 行 的 ， 但 是 这 种 方式 对 于 当 只 存在 很 少 的 不 同 的 值 完 全 分 布 在 
相同 的 数据 点 之 间 时 ， 就 完全 不 可 能 获取 分 布 情况 。 








12-1: 利用 经 典 分 类 数据 可 视 化 技术 : 散 点 图 (Ze) 和 并 行 坐标 
E) ， 这 两 种 方式 带 来 的 大 量 数据 点 重合 导致 即使 采用 一 些 技巧 
(比如 ， 数 据点 抖动 技术 ) 也 无 法 提供 多 少 信 





并 行 集 


“并 行 集 ”或 称 ParSet(Bendix 2005, Kosara 2006) ， 它 是 一 种 可 视 
化 技术 ， 专 门 用 于 描述 分 类 数据 。 当 和 分 析 用 户 调查 数据 的 专家 交谈 
时 ， 我 们 意识 到 他 们 咨询 的 大 多 数 问题 不 是 基于 单个 人 的 调查 回复 ， 
而 是 基于 这 些 回 复 的 分 类 ， 或 者 是 集合 和 交集 。 对 于 有 3 个 小 于 5 多 小 
孩 的 父母 ， 有 多 少 人 会 购买 名 牌 洗衣 粉 呢 ? 或 者 ， 换 句 话 说， 集合 A 
中 有 多 少 人 也 在 集合 B 中 ? 泰坦 尼克 号 上 有 多 少 一 等 舱 乘 客 幸存 
(在 “舱位 等 级 ”维度 有 多 少 对 应 值 是 “一 等 舱 *， 而 在 “是 否 幸 存 ” 维 度 
有 多 少 对 应 值 是 “是 ”) ? 他 们 当中 有 多 少 是 女性 (有 多 少 人 在 “性 
别 * 维 度 是 “< 女 ”) ? 





这 种 方法 意味 着 不 需要 绘制 数 以 千 计 的 代表 个 人 的 数据 点 ， 我 们 
只 需要 显示 数据 中 存在 的 可 能 的 集合 和 子 集 ， 以 及 这 些 集合 的 大 小 。 
如 条 这 些 集合 的 数量 和 相对 大 小 总 是 相同 ， 我 们 推测 我 们 长 至 可 以 证 
明 该 技术 和 实际 数据 集 无 关 。 








ParSet 不 是 把 数据 显示 成 集合 ， 而 是 深 受 “并 行 坐标 *( (Prallel 
Coordinates)( (Iselberg 2009) 的 影响 ， 后 者 是 一 种 流行 的 对 高 维 数值 
数据 的 可 视 化 技术 。 平 行 轴 布 局 使 得 对 “ 树 形 图 ”和 “马赛 元 图 ”的 阅读 
和 比较 更 简单 ， 尤 其 是 随 着 维度 数量 的 增长 。 为 这 种 布局 设计 有 效 的 
交互 也 更 简单 。 








并 行 集 的 第 一 个 版 本 ( 见 图 12-2) 首先 是 基于 分 类 ， 然 后 是 基于 
交集 。 对 于 每 个 轴 ， 我 们 把 每 个 分 类 显示 成 一 个 盒子 ， 其 大 小 和 每 个 
分 类 所 表示 的 数据 点 的 比例 一 致 。 从 统计 学 而 言 ， 这 种 显示 方式 被 称 
为 边缘 分 布 (或 边缘 概率 ) 。 每 个 轴 基 本 上 是 一 个 柱状 图 ， 每 个 柱状 
是 倾 竹 的 ， 而 不 是 彼此 相 邻 并 竖 直 显示 。 

















只 看 图 12-2 的 柱 形 图 ， 很 容易 发 现 工作 人 员 是 泰坦 尼克 号 上 最 大 
的 分 类 ， 三 等 能 人 员 居 次 。 一 等 舱 的 人 数 比 三 等 舱 要 少 很 多 ， 但 是 实 
际 上 比 二 等 舱 的 人 数 要 多 。 很 显然 的 一 点 十 船上 大 部 分 是 男 区 
80%) ， 而 整 稻 船上 大 约 只 有 三 分 之 一 的 人 幸存 下 来 。 





使 用 色 带 连接 一 起 出 现 的 分 类 ， 例如， 显示 一 等 舱 和 女性 这 两 个 
集合 相交 的 概率 ， 这 样 可 以 算出 一 等 舱 中 女性 乘客 的 比例 。 色 之 使 得 
并 行 集 不 仅仅 是 一 堆 柱 形 图 : 它 能 够 使 用 户 同时 看 到 几 个 轴 的 分 布 ， 
可 以 允许 用 户 识别 和 比较 不 同 的 模式 ， 人 否则 有 些 模式 将 很 难 被 发 现 。 














在 泰坦 尼克 号 这 个 案例 中 ， 在 不 同 分 类 中 ， 女 性 很 明显 地 分 配 不 
均 。 虽 然 一 等 舱 中 有 接近 50% 的 女性 ， 而 二 等 舱 和 三 等 舱 中 男性 的 比 
重要 远 远 超过 女性 。 船 员 95% 以 上 是 男性 。 虽 然 色 融 显示 很 有 用 ， 它 
们 也 存在 一 些 问题 。 必 须 对 色 市 宽度 进行 排序 ， 越 宽 的 色 市 应 该 越 先 
描绘 ， 这 样 细 的 色 市 可 以 显示 在 上 面 ， 不 会 被 其 他 色 市 掩 兰 挥 。 此 
外 ， 当 存在 很 多 不 同 的 分 类 时 ， 往 往 会 存在 很 多 色 珊 ， 结 采 导 致 这 些 
色 带 可 视 化 显示 上 很 密集 ， 人 们 难以 阅读 和 与 之 交互 。 








«100.000 % out of 2201 





(i _ | 








Survived: Survived 
Yes: yes [ 711 (32%) ] 


yes 





图 12-2: 原始 的 并 行 集 设 计 ( 见 彩 图 95) 


交互 是 "并 行 集 ” 的 一 个 重要 方面 。 用 户 可 以 使 用 鼠标 显示 来 得 看 
真正 的 数字 ， 而 且 可 以 对 分 类 和 维度 重新 排序 ， 给 显示 增加 (或 者 删 
BR) 维度 。 还 存在 通过 大 小 对 轴 上 的 分 类 进行 排序 的 方法 ， 以 及 把 分 
类 组 合成 更 大 的 分 类 〈 举 个 例子 ， 增 加 一 个 由 所 有 的 乘客 组 成 的 分 
类 ， 可 以 更 好 地 和 船员 进行 比较 ) 。 


可 视 化 重 设计 





并 行 集 需要 我 们 通过 很 多 实验 才能 确定 的 一 个 方面 是 关于 如 何 对 
一 个 轴 到 允 一 个 轴 的 色 带 进行 排序 。 我 们 想 出 了 两 种 看 起 来 很 可 行 的 
排序 方法 ， 称 之 为 “标准 式 ? 和 “捆绑 式 ”。 标 准 式 只 根据 上 方 的 分 类 对 色 
带 进行 排序 ， 它 可 以 形成 分 极 结 构 ， 但 是 带 来 的 问题 是 当 包 括 大 量 的 
维度 和 分 类 时 ， 可 视 化 显示 会 非常 密集 。 捆 绑 式 对 位 置 在 上 方 和 下 方 
的 分 类 都 进行 分 组 ， 尽 量 使 色 带 平行 显示 ， 这 意味 着 它 会 对 部 分 色 带 


进行 牌 直 隅 离 。 














我 们 开始 重新 实现 该 技术 以 寻找 好 的 可 视 化 结构 的 表现 方式 ， 在 
进行 了 一 段 时 间 之 后 ， 我 们 才 意 识 到 上 自己 一 直 在 看 的 结构 是 一 个 树 型 
结构 (这 是 “标准 式 ” 的 方式 ) 。 整 个 数据 点 集合 钙 该 树 的 根 节 后， 而 
且 每 条 轴 把 数据 集 划分 成 轴 上 的 分 类 〈 见 图 12-3) 。 色 种 显示 了 树 状 结 
构 ， 贡 点 看 起 来 和 预期 的 不 一 致 ， 因 为 我 们 在 每 条 轴 上 收集 这 些 市 后 
来 形成 柱状 图 。 
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Survived: Survived 
Yes: yes [711 (32%) ] 


图 12-3: 并 行 集 中 的 树 状 结构 ， 每 一 层 太 扩 部 被 收集 生成 柱状 图 ， 色 
带 连接 不 同 的 节点 ( 见 彩 图 96) 


我 们 重新 实现 但 没有 对 可 视 化 做 任何 重大 改变 ， 但 是 树 状 结构 的 
想法 扎根 在 我 的 脑海 里 。 因 此 ， 有 一 天 我 问 目 己 : 如 采 我 们 减少 块 状 
显示 ， 主 要 集中 于 条 状 显 示 ， 结 采 会 是 什么 效果 ? 其 结果 是 生成 了 一 
幅 更 清晰 的 树 状 结构 ( 见 图 12-4) 。 


一 种 简单 的 变化 已 经 把 关注 焦点 从 分 类 方 框 变换 成 条 形 树 状 结 
构 。 在 新 的 设计 中 ， 当 用 户 沿 着 线条 点 击 鼠 标 时 ， 方 框 依然 会 存在 
(提示 用 户 可 以 点 击 交 互 ) ， 但 是 这 只 是 个 手段 有 里 了 。 我 们 真正 感 兴 
趣 的 核心 信息 在 于 把 分 类 方 框 划分 成 了 多 个 子 集 。 


除了 增强 结构 清晰 性 ， 新 的 设计 还 更 好 地 利用 了 字体 来 体现 维度 
层次 和 分 类 标签 ， 而 且 视 觉 效 采 显 得 更 为 优雅 。 








图 12-4: 新 的 并 行 集 设 计 ， 更 清晰 地 显示 了 树 状 结构 ( 见 彩 图 97) 


根据 聚 类 和 集合 来 查看 数据 算 不 上 新 的 想法 。Polaris(Stolte、Tang 
和 Hanrahan 2002) 和 Tableau 局 是 基于 类 似 的 思想 构建 的 : 对 很 多 单个 
值 进 行 聚 集 ， 并 把 聚集 划分 成 不 同 的 子 集 。 对 非 层 次 数据 的 树 形 图 的 
使 用 (这 也 是 当前 树 形 图 被 广泛 使 用 之 处 ) 是 基于 相同 的 转换 。 根 据 
数据 创建 一 棵 子 集 树 可 以 促使 用 户 使 用 任何 层次 级 别 的 可 视 化 来 显示 
该 数据 。 树 形 图 主要 专注 于 节点 大 小 而 不 是 树 形 结构 ， 这 是 一 个 很 目 
然 的 选择 。 











对 最 初 设计 的 变更 只 需要 对 程序 做 很 少 的 修改 ， 但 是 从 这 点 看 
(而 且 重 新 实现 的 性 能 也 很 一 般 ) ， 对 可 视 化 变化 的 认 知 上 的 需求 仅 
仅 是 该 程序 数据 模型 的 基本 设计 问题 。 


[1] 参见 http: Wwww.tableausoftware.com ° 


新 的 数据 模型 


在 原始 程序 中 ， 数 据 是 以 其 初始 的 方式 存储 的 : 作为 一 张大 表 存 
储 。 后 来 ， 我 们 增加 了 给 数据 创建 其 他 维度 的 功能 ， 但 并 没有 改变 该 
原则 。 对 于 显示 上 的 每 个 变化 ， 程 序 处 理 整 个 数据 集 并 对 分 类 组 合 进 
行 计 数 。 随 着 数据 集 的 增 大 ， 该 处 理 过 程 变 得 非常 缓慢 ， 需 要 消耗 大 
量 的 内 存 。 











根据 集合 来 查看 数据 的 一 大 优点 是个 别 数 据点 确实 没有 什么 意 
义 ， 真正 有 意义 的 是 数据 子 集 。 因 此 ， 下 一 步 很 自然 地 十 要 查看 所 有 
可 能 的 数据 聚集 ， 这 些 聚集 会 被 用 于 计算 生成 任何 用 户 感 兴趣 的 于 


H o 





在 统计 学 中 ， 这 种 方式 被 称 为 交叉 表 ( (coss-tabulation) 或 透视 表 
( (pvot table)。 在 两 个 维度 的 情况 下 ， 其 结果 是 生成 一 张 结果 表 ， 其 
中 一 个 维度 的 分 类 以 列 的 形式 显示 ， 而 另 一 个 维度 以 行 的 形式 显示 ， 
如 图 12-5 所 示 。 





船舱 
~| š | A | 
一 等 舱 145 44.6% 

30.8% 6.6% 


二 等 舱 37.2% 
4.8% 


== 27.8% 
8.9% 


工作 人 员 


470 1731 2201 
21.4% 78.6% 100% 


图 12-5: 泰坦 尼克 与 数据 集中 “船舱 等 级 "和 “性 别 ” 这 两 个 维度 的 交 
XK 











这 张 表 中 存在 两 种 类 型 的 数字 : 计数 值 和 百分比 。 在 左上 角 ， 每 
个 单元 格 包含 不 同 标准 组 合 的 人 数 计数 ， 右 下 角 表 示 该 数值 所 占 总 数 
的 百分比 。 后 者 被 称 为 优先 级 百分比 (或 概率 ) 。 然 而 ， 通 常 更 有 意 
义 的 是 条 件 百分比 (或 称 条 件 概 率 ) ， 它 表示 不 同 分 类 的 组 合 。 在 每 
个 单元 格 的 右上 角 有 是 给 定 某 行 ， 能 够 得 出 需要 的 列 的 概率 〈 即 在 一 等 
舱 乘 客 中 女性 的 人 数 ) ;在 左下 角 是 给 定 某 列 ， 能 够 得 出 需要 的 行 的 
概率 〈《 即 在 一 等 舱 中 女性 所 占 的 百分比 ) 。 





由 于 数据 是 完 全 分 类 的 ， 交 叉 表 包含 了 所 有 相关 的 信息 ， 而 且 坪 
我 们 需要 存储 的 所 有 信息 。 如 采 我 们 想 要 根据 它 重 新 创建 原始 数据 ， 





我 们 可 以 简单 地 通过 生成 尽 可 能 多 的 行 ， 每 种 分 类 组 合 都 如 给 定单 元 
格 所 示 。 唯 一 需要 其 他 数据 的 情况 是 当 数 据 集 也 包含 数值 列 。 





两 种 以 上 维度 的 交叉 表 有 一 些 复杂 ， 但 是 基本 遵循 相同 的 原则 。 
需要 构建 和 数据 集 一 样 多 的 维度 的 高 维 数组 ， 数 组 中 的 每 个 单元 格 显 
示 该 值 出 现 频率 的 计数 值 。 


不 笠 的 是 ， 可 能 的 组 合 数 很 快 承 变 得 非常 庞大 ， 而 且 实际 上 比 在 
绝 大 多 数 数据 集中 的 行 数 要 大 得 多 。 举 个 例子 ， 对 于 人 口 普 查 数据 ， 
只 考虑 〈100 多 个 维度 当中 的 ) 有 房 或 租房 、 建 筑 面积 、 建 筑 类 型 、 建 
成 年 份 、 居 住 年 份 、 房 间 数 量 、 取 暧 材料 、 财 产 人 价值、 家族/ 家庭 类 型 
和 家 族 语言 这 几 种 维度 就 可 以 生成 462000000 种 组 合 ， 而 对 于 整个 美 
，1% 的 人 口 普查 微观 数据 样本 的 数值 仅 为 1236883。 


这 里 的 关键 在 于 对 于 高 维 数据 ， 绝 大 多 数组 合 在 实际 数据 中 并 不 
会 出 现 。 因 此 ， 只 需要 对 那些 真正 存储 信息 的 数据 进行 计数 。 这 在 我 
们 当前 的 实现 中 是 : 简单 地 通过 使 用 一 组 整数 数组 来 保存 每 个 行 中 的 
所 有 值 ， 并 使 用 该 值 作为 散 列 表 的 键 值 。 在 绝 大 多 数 情 况 下 ， 散 列表 
所 占用 的 空间 要 小 于 原始 数据 所 占用 的 空间 。 





效 据 库 模 型 


数据 库 本 质 上 是 包含 每 种 分 类 组 合 的 计数 值 的 散 列 表 的 直接 映 
吊 。 每 个 数据 集 单独 存储 在 一 张 表 中 ， 每 个 列表 表示 数据 集中 的 一 个 
维度 。 每 行 包含 描述 交叉 表 中 的 单元 格 的 分 类 值 ， 以 及 该 组 合 出 现 的 
频率 次 数 。 还 存在 一 个 额外 的 域 ， 称 为 天 键 字 ， 该 天 键 字 对 于 每 行 都 
征 唯 一 的 ， 而 且 用 于 表 连 撑 时 查看 数值 数据 。 











通过 SQL 查 询 完 成 对 数据 的 聚集 ， 该 查询 语句 只 是 人 简单 地 选择 用 
户 感 兴趣 的 维度 和 总 的 计数 ， 对 相同 维度 的 结 行 分 组 ( 见 表 12- 
J); 


select class,sex,survived,sum(count)from titanic_dims 
group by class,sex,survived; 


因此 ， 数 据 库 对 计数 值 进行 聚集 ， 返 回 只 包含 可 视 化 需要 的 值 的 
低 维 交 叉 表 。 


表 12-2: 查询 泰坦 尼克 号 数据 集结 果 ， 只 包含 船舱 等 级 、 性 别 和 是 否 幸存 3 个 维度 


船舱 等 级 性 别 是 否 幸 存 计数 值 
-等 舱 男 否 118 
-等 舱 女 是 141 
二 等 舱 男 是 25 
二 等 舱 pra 是 93 
三 等 舱 男 是 88 
三 等 舱 男 否 422 
三 等 舱 pra 是 90 





12-2: 查询 泰坦 尼克 号 数据 集结 果 ， 只 包含 船舱 等 级 、 性 别 和 是 否 幸 存 3 个 维度 ( 续 ) 
船舱 等 级 性 别 是 否 幸存 计数 值 

三 等 舱 否 

工作 人 员 
工作 人 员 
工作 人 员 
工作 人 员 








该 模型 在 原理 上 和 数据 仓库 和 联机 分 析 处 理 ( (OAP) 非 常 相似 。 绝 
大 多 数 数 据 库 包含 特定 的 “切片 "( (bek ERP (nlup) 关 键 字 ， 可 以 
从 一 张 普通 的 表 中 创建 聚集 。 它 的 优点 在 于 不 需要 前 置 特殊 的 处 理 ， 
但 是 其 缺点 在 于 处 理 速度 更 慢 ， 而 且 需 要 更 多 的 磁盘 空间 来 存储 所 有 
的 原始 值 。 为 了 加 快 读 取 速 度 和 聚集 性 能 ， 对 数据 进行 特殊 地 结构 化 
处 理 (如 在 数据 仓库 和 数据 库 模 式 中 的 ) 可 以 显著 提高 普通 操作 的 性 
能 ， 其 代价 是 当 需 要 增加 新 的 数据 时 需要 做 更 多 的 处 理 。 








虽然 ParSets 应 用 程序 当前 并 不 显示 数值 维度 ， 它 确实 把 维度 信息 
存储 在 数据 库 中 。 这 些 维度 信息 是 存储 在 一 张 单独 的 表 中 ， 该 表 包 含 
这 些 值 对 应 的 行 的 键 值 ， 每 个 列 显 示 一 个 数值 维度 。 不 是 使 用 计数 操 
作 ， 而 是 使 用 简单 的 连接 查询 ， 对 交叉 表 中 的 各 个 单元 格 中 的 任何 数 
值 维度 进行 聚合 操作 。 任 何 标准 的 SQL 聚合 操作 ( (sm、avg、min 和 
max 函 数 ) 可 以 用 于 这 个 目的 。 因 此 ， 该 程序 可 以 允许 用 户 选 择 一 个 数 
值 维度 ， 用 于 对 条 状 显示 和 色 市 进行 扩展 ， 而 且 可 以 选择 已 使 用 的 聚 
合 操作 。 

















当前 版 本 的 并 行 集 把 数据 存储 在 本 地 的 SQLite 数 据 库 中 。SQLite 是 
非常 有 趣 的 开源 数据 库 ， 它 在 一 张 表 上 执行 操作 。 它 可 以 应 用 于 很 多 
幅 入 式 应 用 中 ， 而 且 对 于 数据 损坏 有 很 强 的 容错 性 (这 些 设备 在 任何 
时 候 都 可 能 宕 掉 ) 。 然 而 SQLite 数 据 库 不 包含 商业 数据 库 的 所 有 特 
征 ， 它 很 小 、 很 快 而 且 不 需要 任何 步骤 。 这 使 得 SQLite 数 据 库 成 为 最 
佳 的 数据 存储 方案 ， 其 额外 优势 是 查询 语言 规范 。 








树 结构 增长 


然而 ， 数 据 库存 储 以 及 可 以 被 检索 的 交叉 表 只 是 其 中 一 部 分 。 为 
了 回 用 户 显示 并 行 集 展 示 ， 我 们 需要 用 一 棵 树 来 表示 。 每 当 用 户 改变 
维度 或 者 重新 对 它们 进行 排序 ， 应 用 程序 束 会 查询 数据 库 ， 检 索 到 新 
的 交 义 表 。 然 后 ， 应 用 程序 会 刀 历 所 有 的 结果 数据 来 构建 树 。 如 果 仔 
细 查 看 ， 在 表 12-2 中 实际 上 已 经 可 以 看 到 这 些 信息 。 每 当 在 同一 列 中 多 
次 出 现 相同 的 值 ， 我 们 查看 到 的 是 这 樟树 中 相同 的 节 感 ， 而 只 有 树 的 
右 季 扩 会 变化 ， 如 表 12-3 所 示 。 








表 12-3: 在 表 12-2 的 查询 结果 中 内 在 的 树 结构 











船舱 等 级 性 别 是 否 幸 存 计数 值 
-等 舱 男 是 62 
EN 118 
1 
二 等 舱 男 是 25 
女 是 93 
否 13 
三 等 舱 88 
422 
90 
工作 人 员 192 


670 
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程序 所 需要 做 的 是 一 行 一 行 遍历 结果 集 ， 根 据 已 有 节点 从 左 到 右 
构建 树 ， 直 到 遇 到 不 存在 的 节点 。 在 树 中 增加 该 世 点 ， 并 从 数据 库 的 
记录 中 获取 其 计数 值 。 





然而 ， 数 据 库 只 包含 树 的 叶子 计数 ， 而 不 是 其 内 部 的 节点 (其 他 
数据 库 如 Oracle， 当 执行 切片 查询 ( (cbe query) 时 ， 也 返回 内 部 节 
A) 。 但 是 ， 计 算 市 点 计数 很 简单 ， 只 需要 从 叶子 节点 到 根 节点 ， 冲 
归 地 对 每 个 孩子 下 点 的 值 进行 求 和 。 


计数 值 本 吴 也 只 是 原始 分 数值 ， 一 旦 一 个 下 点 的 所 有 计数 值 已 
知 ， 束 在 同一 个 步 又 中 对 所 有 分 数值 进行 计数 。 为 了 准确 地 显示 条 状 
色 带 ， 我 们 使 用 百分比 : 每 个 分 类 的 一 个 先 验 百分比 (a priori 
percentage) 是 色 带 的 中 心 ， 用 它 作为 整个 色 带 宽度 的 分 数 ， 而 使 用 条 件 
百分比 《根据 上 一 个 分 类 在 色 带 上 显示 下 一 个 分 类 ) 来 确定 色 带 的 宽 
度 ， 作 为 分 类 条 状 宽度 的 分 数 。 


边缘 概率 
14.8% 12.9% 32.1% 
be ami h e aA 


| 工作 人 员 





| 24% | | 78.6% | 
边缘 概率 


图 12-6 每 条 色 带 的 视 度 表示 其 在 所 有 数据 集中 的 边缘 概率 (成 比例 分 
数 ) ， 以 及 在 每 个 分 类 的 条 件 概率 ( 见 彩 图 98) 


现实 世界 中 的 并 行 集 





从 2009 年 6 月 发 布 该 应 用 程序 后 ， 它 已 经 被 下 载 了 750 多 次 (截止 
到 2010 年 1 月 ) 。 我 们 从 很 多 用 户 那 里 收 到 来 信 ， 他 们 成 功 地 把 该 应 用 
程序 用 于 自己 的 数据 中 。 在 2010 年 的 VisWeek 2010K MERRE, R 
们 还 因为 对 使 用 该 程序 做 的 3 个 案例 研究 报告 而 获得 了 一 个 奖章 
( (htp: //discoveryexhibition.org)。3 个 案例 是 和 男 外 3 个 人 一 起 实现 





的 : Joe Mako(Mako Metrics), Jonathan Miles(Gloucestershire City 
Council, #[)) 和 Kam Tin Seong (新 加 坡 管理 大 学 ) 。 





Joe Mako 对 该 程序 的 应 用 方式 尤其 有 意思 ， 因 为 他 使 用 该 程序 来 
显示 看 起 来 像 多 个 处 理 阶段 中 的 数据 流 。 把 最 后 一 个 阶段 放 在 最 上 面 
意味 着 该 色 市 是 用 最 后 一 种 结果 进行 厦 色 ， 这 使 得 他 可 以 很 容易 查看 
哪里 出 现 问题 。 实 际 上 存在 一 种 可 视 化 技术 ， 其 在 视觉 上 (虽然 不 是 
在 概念 上 ) 和 用 于 流 的 并 行 集 相似 ， 称 为 Sankey 流 程 图 。 并 行 集 可 以 
模拟 严格 按照 一 个 方向 流动 以 及 只 有 分 割 (没有 合并 ) 的 流程 图 。 
Jonathan Miles 和 Kam Tin Seong 对 程序 的 使 用 和 该 程序 本 吴 的 初始 目的 
更 接近 ， 即 提供 有 趣 的 洞察 分 别 生成 调查 结 有 末 和 文 持 客户 。 








结束 语 


学 术 界 很 注重 创新 ， 但 是 确实 存在 情况 使 得 思想 可 以 随 着 时 间 不 
断 发 展 ， 这 样 思想 才 会 更 清晰 更 完善 。 结 采 不 仅仅 是 对 问题 和 技术 有 
更 好 的 理解 ， 而 且 可 以 为 用 户 提供 更 好 的 工具 ， 可 以 易于 理解 和 提供 


洞察 。 








并 行 集 重 设计 说 明了 可 视 化 展现 和 数据 展现 《以 及 数据 库 设计 ) 
古 如 何 密 切 天 联 的。 理解 目 己 技术 的 底层 模型 可 以 给 我 们 市 来 更 好 的 
可 视 化 设计 ， 同 时 也 带 来 数据 库 和 编程 模型 的 大 幅 改 进 。 
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第 13 章 “XbyY" 的 设计 : 奥地利 电子 艺术 节 档 


ZN te RSA Moritz Stefaner 


本 章 将 介绍 “X by YMA, Ee MATE T RUA HARM 
1987 年 到 2009 年 间 所 有 获 交 作品 的 可 视 化 ， 奥 地 利 电子 艺术 奖 是 一 个 
著名 的 媒体 艺术 大 奖 。 这 个 可 视 化 的 最 终 版 由 一 系列 大 型 印刷 品 组 
成 ， 提 交 的 作品 根据 不 同 的 标准 被 划分 为 了 多 个 类 别 。 本 章 摘 述 了 完 
成 这 个 最 终 作 品 的 完整 过 程 ， 并 介绍 了 一 些 特定 的 设计 决定 的 缘由 。 





人 答 介 和 概念 


Ludwig Boltzmann 研 究 所 的 media.artresearch 网 站 和 我 在 2009 年 春 
签约 ， 工 作 内 容 是 关于 电子 艺术 大 奖 的 参赛 作品 数据 库 。 那 一 年 是 奥 
地 利 电子 媒体 艺术 成 立 30 周 年 ， 我 们 双方 一 起 决定 接受 挑战 ， 试 着 对 
过 去 22 年 以 来 提交 给 该 奖项 的 所 有 作品 进行 可 视 化 分 析 。 在 此 之 前 ， 
从 未 在 整体 上 对 包含 这 些 提交 信息 的 数据 库 进行 分 析 。 


在 该 项 目的 启动 大 会 上 ， 我 们 对 目标 进行 了 讨论 。 整 个 可 视 化 项 
目的 总 负责 人 Dietm ar Offenhuber 富 于 创新 ， 他 提出 需要 开发 不 同 的 可 
视 化 ， 故 而 可 以 从 3 个 不 同 的 角度 来 审视 艺术 广 。 


定量 分 析 


Bl eG Ay Ce a BA LEA GEC PER ZAR? 不 同 
的 分 类 之 间 有 何不 同 、 这 些 作品 来 目 哪里 以 及 作品 的 价值 随 着 时 间 的 
推移 是 如 何 变化 的 ? 


社交 网 络 





在 过 去 那些 年 ， 评 委 团 成 员 都 是 谁 ? 他 们 以 及 获奖 人 是 如 何 互相 
联系 的 ? 





ZINTA RER 








获奖 项 目 有 哪些 影响 ? EEA S| ALR EER AANA 
域 产 生 了 什么 样 的 影响 ? 


下 文 将 要 介绍 的 我 所 做 的 项 目 属于 第 一 类 。 具 体 地 说 ， 我 将 查看 
提交 的 数据 来 调查 确定 我 们 能 够 做 出 哪些 假设 、 得 出 哪些 见解 ， 以 及 
我 们 古 否 能 够 发 现 合适 的 可 视 化 方法 将 “ 忆 术 世界 ”的 特征 展示 给 展 换 
的 参观 者 。 


我 和 那些 致力 于 分 析 电 子 档案 的 乙 术 历史 学 家 们 一 起 符 试 定义 了 
我 们 的 首要 兴趣 ， 如 网 13-1 所 示 。 不 需要 详细 得 看 数据 库 ， 假 定 我 们 
能 够 处 理 一 些 基 础 维度 ， 如 作品 的 作者 、 作 者 的 国籍 、 参 赛 年 份 、 奖 
项 类 别 、 关 键 词 以 及 是 否 获奖 。 该 矩阵 显示 了 这 些 因素 的 特定 组 合 的 
先 验 兴 趣 ， 比 如 专家 会 预期 有 趣 的 发 现 将 在 哪里 出 现 。 举 个 例子 ， 假 


定 我 们 能 够 通过 国籍 对 获奖 者 进行 划分 (并 把 结果 数据 和 全 局 提交 作 
品 统计 进行 比较 ) ， 然 后 就 可 以 查看 作者 和 分 类 之 间 的 关联 。 


奖项 类 别 


关键 字 


EE 
JESEN 
«| x 





图 13-1: 初始 兴趣 在 属性 组 合 上 的 分 布 矩 阵 


了 解数 据 形势 


接 下 来 ， 我 开始 和 Sandor Herramhof 一 起 寻找 可 用 的 数据 。 多 年 以 
来 ， 人 们 使 用 了 数据 库 模 式 ， 这 些 模式 没有 亲人 循 统一 的 规范 ， 对 细 方 
的 描述 相互 之 间 也 有 很 大 的 不 同 ， 这 使 得 对 已 有 的 数据 进行 概览 变 得 
很 困难 。 举 个 例子 ， 有 这 样 一 个 数据 库 ， 其 特点 是 将 备注 信息 以 XML 
格式 存储 在 一 个 文本 域内 ,但 只 是 部 分 提交 的 作品 包含 这 种 信息 。 为 
了 简化 对 数据 总 体 状 况 的 获取 过 程 ， 我 开发 了 数据 可 视 化 统计 工具 
dbcounter!'! ， 它 很 小 、 采 用 nodebox 7! 的 展现 方式 ， 能 够 帮助 我 们 快 
速 获取 分 类 数据 的 大 量 集合 的 总 体 概 况 。dbcounter 通 过 读 取 CSV 文 
件 ， 确 定 所 有 具有 唯一 值 的 属性 ， 统 计 这 些 属性 的 出 现 频率 ， 并 把 输 
出 结果 描绘 成 一 张 区 域 图 。 灰 色 区 域 ( 见 图 13-2) 表示 值 被 丢失 或 值 为 
空 。 总 体 而 言 ， 实 践 证 明 该 工具 对 于 理解 数据 库 内 容 是 很 有 用 的 ， 尤 
其 有 助 于 发 现 缺 失 值 和 理解 数据 的 多 样 性 。 
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图 13-2: 
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通过 dbcounter 工 具 对 数据 库 内 容 的 首次 概览 ，dbcounter 是 一 
款 定 制 的 nodebox 脚 本 ( 见 彩 图 99) 


这 些 绘图 ， 数 据 库 中 强 含 的 一 些 事实 信息 很 快 束 变 得 很 清 


-数据库 中 存在 很 多 明显 元 余 的 域 ， 如 “Land” (德语 ， 表 示 “ 国 
家 ”) 和 “sYear”"， 这 是 由 过 去 几 年 数据 库 模 式 的 合并 造成 的 ; 


-作者 名 字 、 参 赛 年份 和 奖项 类 别 信息 很 完整 ; 


:包含 的 国家 、 公 司 和 Web 地 址 信息 远 小 于 预期 。 


为 一 方面 ， 这 种 快速 地 初步 分 析 使 我 们 能 够 了 解 哪 些 属性 组 合 可 
征 有 意义 的 ， 至 少 可 以 渔 盖 大 部 分 有 意义 的 属性 组 合 数据 。 由 于 数 
据 迁 移 是 一 个 持续 的 过 程 ， 它 还 为 我 们 提供 在 某 些 区 域 的 有 用 的 概 


览 ， 通 过 探索 这 些 区 域 ， 我 们 可 以 改进 数据 、 寻 找 哪 些 域 可 以 合并 在 

一 起 或 可 以 进一步 补充 得 更 完整 。 举 个 例子 ， 我 们 这 个 团队 在 包 侣 有 

国家 域 的 数据 库 上 所 开展 的 工作 实际 上 有 是 尽 可 能 地 充实 更 多 的 信息 
(“看 起 来 是 真正 有 趣 的 信息 ， 而 我 们 已 经 与 这 些 信息 非常 接近 ”) 。 











[1] 参考 http: //well-formed-data.net/archives/306/dbcounter-quick-visual- 


database-stats ° 
[2] NodeBox7ze H Python ZILAR — 24h A A A, EI 
http: //nodebox.net/code/index.php/Home ° 


探索 数据 


在 对 个 体 的 各 种 属性 的 初步 定量 分 析 之 后 ， 下 一 步 是 对 初始 的 数 
据 集 进行 切片 和 切 块 ， 从 而 调研 关联 关系 并 为 数据 中 出 现 的 空 日 寻找 
一 些 线索 。 在 这 一 步 ， 我 们 使 用 商业 软件 Tableau 1 ， 它 允许 我 们 在 一 
个 使 用 灵活 且 表 达能 力 很 强 的 工作 区 中 使 用 可 以 交互 的 表格 对 导入 的 
表格 数据 和 数据 库 中 的 数据 进行 探索 分 析 。 举 个 例子 ， 我 们 使 用 
Tableau， 对 缺乏 国籍 信息 的 提交 作品 通过 作品 的 参赛 年 份 和 奖项 类 别 
等 属性 进行 区 分 〈 见 图 13-3) ， 从 而 识别 出 最 大 的 空 日 ， 这 种 方式 有 助 
于 在 目录 文本 等 其 他 媒介 中 搜索 出 缺失 的 信息 。 类 似 “ 提 交 的 作品 的 数 
量 和 分 类 之 间 有 什么 关联 关系 ? ”和 “这 种 情况 在 过 去 几 年 之 中 是 否 发 
ETZE? ”这样 的 问题 ， 都 可 以 借助 图 形 化 工具 轻易 地 找到 答案 。 
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图 13-3: 对 缺乏 国籍 信息 的 提交 作品 生成 的 绘图 ， 通 过 作品 年 份 和 作 
D A 
品类 别 进 行 划分 


其 他 探索 包括 根据 提交 作品 的 条 目 所 属 的 类 别 对 其 公司 进行 特征 
人 化。 例如， 图 13-4 的 图 表 揭 示 了 一 些 洪 藏 的 有 趣 的 故事 。 然 而 ， 接 下 来 
很 快 融会 发现 ， 如 采 我 们 想 要 得 出 准确 的 结论 ， 对 不 同 数据 库 中 公司 
名 字 的 统一 需要 花费 大 量 的 人 工 操作 。 
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图 13-4: 按 公司 或 研究 所 进行 分 类 的 提交 作品 ， 对 不 同 分 类 进行 着 色 
( 见 彩 图 100) 


我 们 还 使 用 Tableau 工具 生成 了 一 张 初始 的 关于 提交 作品 的 世界 
地 图 ( 见 图 13-5) ， 每 个 国家 通过 一 张 饼 图 表示 ， 它 可 以 说 明 不 同类 型 
的 作品 的 分 布 情况 。 这 张 世 界 地 图 展示 了 艺术 节 在 本 质 上 是 以 欧洲 / 美 
国 为 中 心 。 我 们 很 快意 识 到 这 种 简单 的 生成 统计 图 的 方法 对 于 这 类 分 
布 不 均匀 的 数据 是 很 低 效率 的 ， 因 此 ， 后 面 我 们 将 会 介绍 更 详细 复杂 
的 方法 。 


Al 13-5: 包含 每 个 国家 的 提交 作品 的 世界 地 图 ， 按 作品 类 别 进行 划分 
( 见 彩 图 101) 


我 还 使 用 Microsoft Excel 对 一 些 数 据 进 行 了 分 析 ，Microsoft Excel 
似乎 在 生成 堆栈 图 方面 有 优势 ， 堆 栈 图 适用 于 研究 过 去 儿 年 的 趋势 ， 
或 者 对 比 数据 子 集 间 属性 的 分 布 。 举 个 例子 ， 图 13-6 显 示 了 各 个 国家 的 
作品 的 相对 百分比 以 及 每 个 国家 获得 的 不 同类 型 的 奖项 的 百分比 。 从 
这 张 图 中 ， 我 们 可 以 看 出 美国 提交 的 作品 数量 占 提交 作品 总 数 的 30%， 
而 获得 的 Golden Nicas% (最 高 级 别 的 奖项 ) 数量 占 总 数 的 60%。 然 
而 ， 这 种 趋势 在 后 期 对 全 部 和 验证 过 的 数据 进行 分 析 时 远 远 没 有 如 此 
明显 。 我 们 还 意识 到 获奖 和 国籍 这 两 个 属性 的 关系 是 复杂 而 又 敏感 
的 ， 只 能 通过 参考 数据 的 其 他 各 个 方面 才能 真正 理解 ， 如 每 个 作品 类 
I 下 提交 的 作品 的 数量 〈 举 个 例子 ， 在 20 世 纪 80 年 代 ， 和 其 他 作品 类 
上 相 比 ， 计 算 机 图 形 这 一 类 别 的 提交 作品 数量 很 惊人) 。 因 此 ， 虽 然 
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图 13-6: 不 同 国家 的 获奖 情况 〈 见 彩 图 102) 
[1]: 参考 http: /Iwww.tableausoftware.com ° 
[2] Tableau 是 一 艇 免费 的 数据 可 视 化 软件 ， 详 见 


http: //www.tableausoftware.com/ ° 


切 次 可 视 化 草图 


分 析 过 程 中 给 数据 增添 了 一 些 初始 的 思考 ， 而 且 为 我 的 合作 者 提 
供 足 够 的 机 遇 一 一 可 能 超出 他 们 的 期 望 一 -对 数据 库 的 数据 进行 纠 
正 、 清 洗 和 补充 完备 。 在 此 基础 上 ， 借 用 Tom Armitage BERG Z E 
的 帖子 “在 海量 数据 中 埋头 昔 干 ， 对 数据 探索 的 真正 感觉 "1 ， 我 对 哪 
些 数据 是 可 用 的 、 有 意义 的 、 有 趣 的 ， 以 及 数据 的 规模 有 很 好 的 把 
握 。 接 下 来 要 做 的 是 致力 于 可 视 化 原则 。 























为 了 对 一 些 不 同 的 可 视 化 选择 进行 原型 化 ， 我 改 成 使 用 Flash 
ActionScript 3 中 的 flare 库 1， 它 是 适用 于 生成 交互 可 视 化 的 一 个 高 级 
的 通用 框架 。 此 外 ， 我 还 使 用 Excel 表 格 分 析 更 多 的 堆栈 图 表 选 项 。 从 
这 些 图 表 中 ， 我 得 到 的 其 中 一 个 收获 是 我 们 应 该 更 多 地 强调 独立 的 数 
据点 〈 比 如 图 13-7 中 的 垂直 轴 上 的 各 个 年 份 ) ， 而 不 是 生成 连续 的 堆栈 
区 域 图 。 在 电子 艺术 这 个 案例 中 ， 提 交 的 作品 仅仅 十 基 于 手工 基础 ， 
因此 不 同年 份 间 的 可 视 化 “插值 ”方式 会 造成 对 现实 情况 的 误导 和 扭 
H o 








基于 上 述 考 虑 ， 我 们 开发 了 看 起 来 更 “纤细 ?”( (fagile) 的 图 表 ， 通 过 
降低 插值 区 域 来 文 择 以 下 观点 : 





插值 区 域 只 是 作为 更 “坚实 *( (slid) 的 每 个 年 度 事件 之 间 的 连接 。 
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Al 13-7: 按 国籍 来 显示 不 同 分 类 的 初次 尝试 ( 见 彩 图 103) 


多 年 来 对 分 类 堆栈 区 域 图 的 探索 从 概念 上 提出 了 需要 解决 的 一 些 
额外 的 问题 。 奥 地 利 电 子 艺术 市 的 分 类 结构 在 过 去 多 年 来 不 断 地 演 
变 。 举 个 例子 ， 在 1991 年 没有 设置 “计算 机 音乐 ”这 个 类 别 ， 而 在 其 之 
前 和 之 后 都 有 这 个 类 别 。 在 1991 年 ， 删 去 了 “计算 机 分 类 ” 


这 个 类 别 ， 增 加 了 新 的 类 别 “ 数 字 首 乐 *。 如 何 最 佳 地 处 理 这 些 情 
况 是 一 个 很 束 手 的 问题 ， 一 方面 ， 存 在 明确 相关 的 分 类 ， 而 男 一 方 
面 ， 对 这 些 分 类 进行 统一 并 通过 不 同 的 标签 把 它们 作为 相同 的 分 类 ， 
这 种 方法 可 能 过 于 简单 。 类 似 这 种 决定 ， 需 要 考虑 专家 的 意见 和 设计 
师 的 观点 来 制订 准确 、 实 用 、 易 于 理解 的 方法 。 我 们 讨论 后 ， 决 定 把 


这 些 类 别 作为 独立 的 分 类 ， 但 是 在 不 同 的 可 视 化 中 对 它们 使 用 相同 的 
绘图 颜色 的 方法 来 解决 这 个 问题 ( 见 图 13-8) 。 





图 13-8: 根据 年 份 所 做 的 分 类 ( 见 彩 图 104) 


随 着 对 已 有 图 表 的 探索 ， 我 也 开始 对 可 视 化 中 那些 令 人 回味 的 、 
含蓄 的 方面 更 加 感 兴趣 。 我 不 喜欢 某 些 特征 ， 比 如 Flare 图 表 从 可 视 化 
角度 看 很 吸引 人 ， 但 是 显示 上 有 点 过 于 “纤细 ”。 不 过 ， 还 存在 更 大 的 
担忧 : 虽然 纯粹 从 定量 角度 ， 以 类 似 媒 体 忆 术 奖 的 方式 看 竺 文化 是 有 
趣 的 ， 但 是 我 们 感觉 目 己 似乎 开始 失去 对 数据 规模 和 多 样 化 的 认识 ， 
而 对 它 进行 特征 化 的 角度 过 于 宽泛 。 有 效 的 可 视 化 和 总 结 与 优先 次 序 
之 间 有 很 强 的 联系 ， 然而， 只 是 创建 非常 抽象 的 图 表 对 于 可 视 化 这 一 
主题 没有 太 大 意义 。 难 点 在 于 是 否 存在 一 种 方式 ， 可 以 显示 作品 总 


数 、 部 分 以 及 它们 之 间 的 相互 关系 ， 同 时 还 可 以 不 忽略 甚至 不 隐瞒 某 
些 个 别 作品 


可 视 化 原则 





这 种 动机 驱使 我 首先 去 探索 密集 像素 的 “马赛 克 ” 显 示 方 式 ( (Kim 
2000) ， 其 想法 是 我 希望 看 到 每 件 作品 的 可 视 化 标识 。 为 了 了 人 解 一 个 
标准 屏幕 上 适合 多 少数 据点 ， 我 使 用 随机 数据 做 了 一 些 快速 测试 ， 如 
图 13-9 所 示 ° 
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我 发 现实 验 结果 令 人 鼓舞 ， 决 定 通过 查看 QR 码 O Hod — oe ey 
查 。 我 们 是 否 能 够 使 用 有 意义 的 URL 来 构建 真正 的 QR 码 ， 使 得 它 在 基 
于 面积 或 像 双 的 数据 图 上 也 能 够 正 第 显示 ? 为 一 个 想法 古 根 据 
Wattenberg (2005 年 ) 的 空间 填充 曲线 的 彩色 分 段 来 生成 类 似 于 树 形 图 
(也 称 “ 拼 图 ”) 的 流行 图 。 





然而 ， 真 正 的 重要 时 刻 是 当 我 想起 在 早期 项 目 中 使 用 过 的 布局 算 
法 。 基 于 黄金 角 (一 个 完整 的 圆 的 “黄金 分 市” 角度 ， 即 137.5°) 的 基础 
计算 ， 它 模仿 了 同日 蓉 种 子 的 排列 方式 ， 即 把 小 的 元 于 打包 成 大 的 贺 
圈 的 最 高 效 、 最 优雅 的 方式 。 图 13-10 显 示 了 我 在 几 个 小 时 内 做 出 的 第 
一 个 尝试 ， 黑 日 交 兰 变化 表示 年 份 (和 树 墩 截面 的 年 轮 类 似 ) ， 省 略 
点 表示 获奖 的 提交 作品 。 


虽然 可 视 化 很 复杂 ， 创 建 这 些 类 型 排列 的 基本 过 程 可 以 使 用 简单 
的 规则 来 描述 :对 于 第 n 个 点 的 放置 ， 选 择 n 的 平方 根 乘 以 某 个 常数 比 
例 系数 作为 半径 。 该 点 所 在 的 角度 即 其 前 一 个 点 的 角度 加 上 黄金 夹 角 
(2*pi/phi=2J137.5°) ° 





为 了 把 这 些 点 统一 、 均 匀 分 布 ， 准 确 使 用 以 下 数值 是 很 重要 的 : 
假如 我 们 使 用 137.4"， 等 征 化 的 双 蝶 旋 将 会 被 只 有 一 个 方 癌 的 单 蝶 旋 代 
巷 ， 扩 之 间 的 距离 将 会 开始 变化 。 使 用 黄金 夹 角 ， 我 们 可 以 无 限制 地 
增加 点 ， 而 且 每 个 点 和 其 邻居 市 点 的 距离 将 会 均匀 分 布 。 为 什么 会 这 
样 呢 ? 我 们 选择 的 分 割 圆圈 的 每 个 有 理 数 数值 迟早 会 生成 重复 的 角 。 














在 最 简单 的 情况 下 ， 如 有 果 我 们 总 是 转 半 个 圈 ， 结 果 会 是 只 有 两 个 不 同 
的 角 。 对 于 任何 有 理 分 数 ， 都 存在 重复 ， 因 此 只 能 使 用 有 限 的 角度 集 
合 。 相 应 地 ， 如 有 果 我 们 想 对 数据 点 的 填充 和 分 布 进行 优化 ， 我 们 需 
使 用 无 理 数 一 一 理想 情况 下 是 使 用 最 大 的 无 理 数 ( 即 至 少 和 一 个 分 数 
接近 ) 。 该 数值 即 phi， 它 表示 黄金 分 割 。 
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( 见 彩 图 106) 
[1] 参考 http: //berglondon.com/blog/2009/10/23/toiling-in-the-data-mines- 
what-data-exploration-feels-like/ ° 
[2] 参考 http: //flare.prefuse.org ° 
[3] : 参考 http: //en.wikipedia.org/wiki/QR_Code ° 


最 终 产 品 





发 现 了 可 视 化 的 指导 原则 后 ， 很 多 开放 问题 和 可 能 组 合 现在 都 自 
然 地 催化 为 可 以 在 目 我 约束 条 件 范围 内 正 币 工作 。 举 个 例子 ， 该 原则 
确定 所 有 项 分 组 的 圆 形 形 状 。 由 于 分 类 分 布 对 于 我 们 所 讨论 的 所 有 方 
面 都 很 重要 ， 我 们 决定 对 显示 的 所 有 可 视 化 的 分 类 分 布 进行 春色 编 
码 ， 对 于 可 以 合理 作为 同一 族 分 类 的 所 有 分 类 用 同一 种 颜色 来 表示 
( 举 个 例子 ， 在 计算 机 动画 和 电影 领域 的 分 类 都 是 显示 成 橘 黄色 。) 
此 外 ， 我 还 采用 形状 编码 方式 来 表示 某 个 提交 作品 是 否 获奖 (圆圈 表 
示 没 有 获奖 ， 铅 石 型 表示 获奖 ) 。 





正如 前 面 所 讨论 的 ， 在 概念 层次 上 ， 我 开始 对 作品 总 数 和 某 个 人 
提交 的 作品 数 之 间 的 关系 感 兴趣 。 因 此 ， 我 需要 找到 一 种 方式 ， 可 以 
把 该 信息 结合 到 最 终 的 可 视 化 中 。 我 做 了 一 些 不 成 功 的 实验 ， 在 圆周 
围 放置 一 些 额 外 的 标签 来 表示 总 数 并 把 总 的 计数 值 放 在 圆 上 方 ， 这 种 
方式 会 导致 显示 上 非 第 混乱 。 在 这 些 笑 试 之 后 ， 我 发 现 了 一 种 更 令 人 
满意 的 解决 方式 : 数字 实际 可 以 通过 点 模式 本 身 来 创建 ! 对 分 类 进行 
彩色 编码 的 决定 排除 了 其 他 所 有 对 点 本 身 的 修改 ， 我 决定 跳 过 序列 中 
用 于 表示 该 数字 的 位 置 的 点 ， 如 采 它 在 圆 上 被 其 他 数字 的 位 置 所 禾 兰 
( 见 图 13-11) 。 该 点 将 被 置 于 下 一 个 预计 算 的 位 置 上 ， 因 此 全 部 点 的 
数目 将 还 保持 不 变 ， 但 走 圆 的 面积 大 小 将 会 有 些 增加 。 显然， 该 原则 
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图 13-12 显 示 了 在 过 去 22 年 所 有 提交 到 奥地利 艺术 市 的 作品 。 它 看 
起 来 像 一 棵 树 的 剖面 ， 最 早 提交 的 作品 被 置 于 最 中 心 ， 其 他 作品 按时 
间 先 后 顺序 置 于 该 作品 周围 形成 圆 。 这 种 组 成 方式 是 生成 所 有 其 他 图 
形 的 基础 ， 每 种 图 形 都 是 该 图 形 的 一 种 划分 ， 其 包含 的 数据 是 根据 不 
同 的 标准 分 析 得 到 的 。 





图 13-12: 所 有 的 37432 个 提交 作品 ， 按 分 类 进行 着 色 ， 通 
交 年 份 从 内 (最 老 的 ) 向 外 (最 新 的 ) 排列 ( 见 彩 图 108) 


fie BARR MID 


图 13-13 所 示 的 图 形 足 以 作为 整个 项 目的 推动 力 : 根据 是 否 获奖 对 
提交 作品 进行 划分 ， 结 果 说 明了 只 有 49% 的 作品 获得 采 誉 称号 、 汞 誉 奖 
章 或 金 像 奖 。 而 其 余 96% 的 作品 是 不 对 外 公开 的 一 一 到 目前 为 止 。 由 于 
这 个 原因 以 及 后 面 更 多 的 分 析 意 见 ， 为 了 避免 中 心 圆 圈 在 视觉 感受 上 
扭曲 了 图 形 的 全 局 视图 ， 我 决定 用 一 张 饼 图 来 显示 组 内 数据 的 分 类 分 
Hi ° 





按 作品 类 别 划 分 





图 13-14 显 示 了 按 作品 类 别 划 分 的 对 所 有 作品 的 定量 分 析 。 同 时 ， 
它 在 饼 图 的 浅 色 区 域 显 示 了 每 个 分 类 的 获奖 项 ， 在 每 个 圆 的 右 侧 由 外 
石 形状 组 成 。 比 如 ， 它 说 明了 计算 机 图 形 分 类 的 提交 作品 数量 最 高 
( 按 分 类 ) ， 而 按 提交 作品 数 来 看 ， 其 获奖 数 很 低 (由 于 该 分 类 只 有 7 
年 的 历史 ) 。 根 据 Wang 等 (20064F) 的 论文 ， 圆圈 的 布局 是 使 用 Flare 
工具 的 CirclePackingLayout 算 法 来 计算 的 。 











划分 的 作品 ( 见 彩 图 110) 
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图 13-15 显 示 了 提交 作品 的 作者 的 国籍 图 。 受 到 《纽约 时 报 》 的 “ 奥 
运 金 牌 图 ”的 启发 赔 ， 该 布局 是 采用 物理 实体 模型 和 再 近 精确 位 置 来 计 
SEA, MATEA SBC 〈《 见 图 13-16 所 示 的 迭代 优化 过 程 的 快照 
Al) ° 








为 了 得 到 国家 名 字 的 坐标 ， 我 使 用 了 在 线 应 用 程序 mapspread |! , 
它 人 允许 用 户 批量 查询 表格 数据 来 获取 地 理 坐 标 。 然 而 ， 需 要 一 些 手工 
校正 ， 因 为 一 些 国 家 名 字 无 法 确定 (特别 是 东欧 国家 ， 东 欧 的 政治 格 
局 在 过 去 几 十 年 有 很 大 改变 ) ， 而 其 他 一 些 国家 名 字 很 含糊 : 实际 
上 ， 甚 至 在 最 终 版 的 地 图 中 ， 格 鲁 吉 亚 国家 还 是 被 错误 地 放置 在 美国 
劳 边 ， 而 实际 上 应 该 是 坐落 于 俄罗斯 和 土耳其 之 间 的 东欧 国家 。 








Al 13-15: 按 国 籍 划分 的 提交 作品 ( 见 彩 图 111) 


图 13-16: 迭代 式 图 片 优 化 快照 ( 见 彩 图 112) 


仔细 查看 地 图 ， 可 以 发 现 媒 体 艺术 的 本 质 是 以 欧洲 /美国 为 中 心 。 
南美 洲 、 非 洲 、 俄 罗斯 和 亚洲 (日 本 除外 ) 的 提交 作品 数 很 少 。 从 历 
史上 看 ， 从 法 国 和 西班牙 的 大 量 的 提交 作品 是 关于 计算 机 动画 和 电影 
HEET) 领域 。 从 显示 上 看 ， 意 大 利 、 瑞 典 和 英国 呈现 出 提交 更 
多 的 音乐 类 别 CRE) 的 作品 的 趋势 ， 而 日 本 则 似乎 提交 更 多 的 是 交 
互 作品 GE) 。 相 反 地 ， 德 国 和 美国 趋向 于 计算 机 图 形 (红色 ) ， 











至 少 在 奥地利 艺术 节 初 期 如 此 。 几 乎 三 分 之 二 的 奥地利 提交 作品 (只 
有 奥地利 的 ) 是 属于 U19 类 别 。 


[1] : 参考 

http: //www.nytimes.com/interactive/2008/08/04/sports/olympics/20080804 
MEDALCOUNT_MAP.html ° 

[2] : 参考 http: //mapspread.com ° 


按 年 份 划 分 


图 13-17 所 示 的 饼 图 序列 显示 了 在 3 个 时 代 的 奖品 历史 的 明确 划分 。 
在 1995 年 ， 提 交 作 品 数 量 急剧 减少 ， 这 和 计算 机 图 形 领域 的 类 别 的 终 
结 和 万 维 网 类 别 的 引入 一 致 。 这 种 下 降 的 一 个 可 能 的 解释 是 每 年 在 计 
算 机 图 形 领域 提交 更 多 作品 很 平常 。2004 年 后 的 年 份 显示 出 更 强 的 种 
类 多 样 化 以 及 提交 作品 的 陡 增 ， 主 要 是 由 于 引入 了 19 风 以 下 的 奥地利 
艺术 家 的 U19 类 别 。 
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图 13-17: 按 年 份 划分 的 提交 作品 ( 见 彩 图 113) 


按 年 份 和 类 别 划 分 


为 了 对 个 别 类 别 团体 的 发 展 进行 审查 ， 图 13-18 显 示 了 时 间 轴 算 阵 
格式 版 本 。 对 于 颜色 编码 和 行 选 择 这 两 个 方面 ， 我 们 都 决定 对 相应 类 
别 进行 分 组 ， 即 使 它们 的 标题 在 过 去 几 年 有 所 变化 。 〈 反 之 ， 需 要 注 
意 的 是 一 些 名 字 没 有 变化 的 分 类 在 不 同年 份 有 不 同 的 定位 。) 和 单个 
年 份 图 形 相 比 ， 这 个 版 本 更 易于 观看 动画 /电影 、 音 乐 ， 而 且 后 期 的 交 
互 艺术 称 为 Prix 奥 地 利 艺 术 奖 的 长 期 支柱 。 
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“测绘 资料 馆 ”( (Mpping the Archive) 是 位 于 Brucknerhaus 的 历史 展 


览 ， 以 由 Dietmar Offenhuber ` Evelyn Münster ` Jaume Nualart ` Gerhard 
Dirmoser 和 我 一 起 创建 的 6 种 不 同 的 数据 可 视 化 为 特征 〈 见 图 13-19) H 


ie) 


ua 


图 13-18: 按 类 别 和 年 份 划 分 的 提交 作品 〈 见 彩 图 114) 





图 13-19: PEIE 





为 了 有 助 于 发 现 数据 中 独特 的 故事 ， 我 们 增加 了 人 少量 的 标注 箭头 
来 突出 有 趣 的 方面 ， 如 图 13-20 所 示 “。 我 们 还 鼓励 用 户 添 加 他 们 目 己 的 
注释 ， 结 果 是 生成 了 一 些 有 趣 的 问题 和 标注 。 


[1] 所 有 可 视 化 都 在 网 上 有 记录 http: //vis.mediaartresearch.at ° 


结束 语 


本 章 介绍 的 可 视 化 是 在 2009 年 夏 开发 的 ， 不 仅 和 负责 资料 库 的 技 
术 人 员 不 断交 流 思路 和 信息 ， 而 且 也 和 对 所 展示 信息 的 语义 方面 进行 
评论 的 巡 体 乞 术 专 家 进行 了 不 断 的 交流 。 





图 13-20: 包含 手写 注释 的 箭头 形状 的 粘贴 ( 见 彩 图 115) 





我 认为 该 可 视 化 工作 是 “信息 美学 ”( (formation aesthetics) H! 的 新 
兴 取 向 的 一 部 分 。 信 息 可 视 化 作为 一 门 科学 ， 通 常 涉及 一 般 的 视觉 映 
射 方法 以 及 对 生成 的 结果 可 视 化 的 可 读 性 和 可 理解 性 的 优化 。 信 息 美 
学 是 基于 该 领域 构建 的 ， 然 而 ， 作 为 一 门 设计 学 ， 信 息 可 视 化 力求 找 








到 一 种 基于 特定 数据 集 的 信息 感性 化 的 展现 方式 ， 这 种 展现 方式 不 仅 
在 显 式 数 据 展现 层次 上 走 可 用 和 可 读 鸭 ， 而 且 增 加 了 设计 的 “命题 密 

人 简 而 言 之 ， 它 表示 可 视 化 中 深层 的 形 
象 特征 ， 是 可 视 化 展现 的 “塞外 之 意 ”。“ 信 息 美 学 ”这 [|] 学 科 就 是 以 这 种 
方式 介 于 传统 的 信息 可 视 化 、 用 户 界 面 设 计 和 美学 学 科 之 中 。 





度 ”( (popositional density) ”| 











我 希望 本 章 说 明了 "信息 美学 ”这 门 学 科 的 一 些 关 键 特 征 。 首 移 ， 
查看 创建 信息 美学 作品 的 过 程 是 很 重要 的 。 根 据 我 的 经 验 ， 以 真实 数 
据 工 作 是 非常 重要 的 ， 甚 至 是 在 早期 的 设计 阶段 。 原 则 上 ， 很 多 从 理 
论 中 提炼 的 可 视 化 想法 在 早期 的 数据 结构 中 工作 民 好 ,但 是 它们 是 否 
传递 有 趣 的 信息 以 及 是 否 有 助 于 解决 问题 〈 或 者 提出 新 的 问题 ) ， 这 
些 只 能 在 处 理 实际 数据 时 才能 确定 。 可 视 化 开发 必然 是 一 个 不 断 自我 
引导 的 过 程 ( (botstrapping process): 在 早期 你 必须 对 这 些 方 式 进 行 实 
践 ， 才 能 理解 应 该 使 用 哪些 可 视 化 和 数据 处 理 方法 进行 下 一 步 探 索 。 
以 我 们 为 例 ， 早 期 通过 标准 工具 对 可 视 化 的 实践 帮助 我 们 理解 应 该 使 
用 哪些 数据 域 、 哪 些 数据 组 合 “ 看 起 来 "很 有 趣 ， 并 为 我 们 后 期 引用 这 
些 具 人体、 真实 的 例子 来 探讨 将 要 做 的 可 视 化 设计 特征 提供 了 民 好 的 基 
础 。 如 果 设 计 师 不 允许 自己 在 可 视 化 探索 中 改变 原 有 的 想法 来 设计 最 
终 产 品 ， 很 有 可 能 其 设计 的 产品 只 会 展示 一 些 表面 现象 ， 而 不 会 引出 
新 的 问题 或 者 揭示 有 趣 的 故事 。 





























此 外 ， 意 识 到 所 展示 信息 的 语义 上 下 文 关系 和 最 终 产 品 的 语义 符 
号 特征 十 至 天 重要 的 。 打 个 比方 ， 在 语言 学 中 ， 语 义学 领域 和 人 句 于 合 
义 的 研究 相关 ， 因 为 可 以 根据 句子 成 分 和 组 合 来 构造 名 了 于。 然而 ， 众 
所 周知 语言 只 有 在 “ 语 用 学 ”角度 下 才能 够 完全 被 理解 : 语 用 学 是 研究 
语言 是 如 何 真正 在 社交 环境 中 被 使 用 的 。 一 个 字 词 表达 的 内 镁 是 什 
A? 在 特定 情景 下 ， 人 们 预期 什么 样 的 表达 ， 而 什么 样 的 表达 有 人 迟 需 
理 ? 











人 们 已 经 投入 很 大 精力 去 理解 信息 展现 中 的 可 视 化 语言 的 语法 和 
语义 学 特征 ， 而 如 今 信息 美学 敲 开 了 人 研究 可 视 化 语言 的 < 语 用 学 ?大 
门 。 举 个 例 于 ， 本 章 所 展示 的 可 视 化 作品 ， 选 定 的 可 视 化 原则 是 源 
于 “内 在 张力 ”( (iherent tension) 引 起 的 、 从 纯 量 化 角度 来 查看 复杂 的 社 
会 现象 。 在 深入 探索 丰富 多 样 的 数据 集中 ， 只 通过 “ 几 个 数字 ”， 从 方 
方面 面 表示 22 年 的 媒体 艺术 历史 ,我们 的 可 视 化 展现 的 是 什么 ? 可 视 
化 的 展现 方式 是 美 试 捕捉 上 述 内 在 张力 ， 并 解决 其 中 一 部 分 。 





























从 以 上 的 分 析 可 以 看 出 ， 可 祝 化 中 的 “美学 “概念 远 远 不 只 是 “ 床 亮 
的 照搬 ”。 当 然 ， 使 用 舒心 是 一 项 重要 且 一 直 被 低估 的 因 系 一 一 在 很 多 
情况 下 ， 关 于 用 户 体验 的 研究 说 明了 在 愉快 舒适 、 令 人 兴 理 的 环境 中 
互动 的 重要 性 。 但 是 ， 正 如 史 带 夫 : 乔 布 斯 的 一 名 名 言 “设计 不 在 于 产品 
的 外 观 和 感觉 ， 而 是 它 如 何 工作 。” 一 个 真正 的 审美 可 视 化 ， 除 了 必须 








美丽 外 ， 而 且 必 须 能 够 表达 现 有 的 潜在 隐 含 特征 ， 并 能 够 激励 用 户 / 读 
者 去 探索 更 丰富 多 彩 的 世界 。 











最 后 一 点 ， 查 看 可 视 化 中 展现 的 信息 的 侣 义 和 上 下 文 ， 人 们 第 帝 
忽略 了 一 点 〈 甚 至 是 在 本 章 中 所 展示 的 可 视 化 ) : 我 们 如 何在 更 大 规 
模 上 对 信息 进行 特征 化 ? 我 们 是 人 否 能 够 通过 连接 到 外 部 数据 库 ， 找 到 
对 观察 到 的 模式 的 解释 ? 以 奥地利 忆 术 节 为 例 ， 比 较 每 个 国家 的 提交 
作品 数 统计 比 给 每 个 国家 提供 更 多 的 信息 展示 可 能 信息 量 更 多 。 一 个 
国家 提交 的 作品 数 和 其 经 济 实力 是 否 相 关 ? 或 者 是 否 和 数字 素养 
( (dgital literacy) 相 关 ? 或 者 其 他 不 太 明 显 的 因素? 由 于 越 来 越 多 的 开 
源 数 据 产 提供 这 些 信息 而 且 可 以 访问 ， 为 真正 了 解 我 们 所 分 析 和 展示 
的 数据 库 中 的 新 兴 的 模式 的 重要 性 提供 合适 的 背景 和 基线 变 得 越 来 越 
重要 。 








[1] “信息 美学 ”这 个 术语 是 Lev Manovich 创 造 的 ， 在 《Lau and Vande 
Moere》 (2007 年 ) 中 有 详细 说 明 。 

[2] “命题 密度 ”这 个 术语 是 William Lidwell (2009 年 ) 定义 的 。 想 要 了 
解 该 术语 的 确切 含义 ， 请 参考 http: //well-formed- 
data.net/archives/495/propositional-density-in-visualization ° 
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第 14 革 ”和 矩阵 探秘 ”Maximilian Schich 





本 章 揭 示 了 资料 数据 库 中 因为 管理 员 的 本 地 操作 和 数据 源 的 异 构 
而 产生 的 一 些 非 直观 的 结构 。 例 子 取 目 艺 术 史 和 考古 学 领域 ， 之 所 以 
选择 这 两 个 领域 是 因为 它们 是 我 的 专业 研究 领域 。 尽 管 如 此 ， 本 章 将 
要 展示 的 成 末 一 一 对 数据 库 的 复 灯 结构 进行 可 视 化 呈现 一 一 同样 适用 
于 很 多 其 他 领域 的 结构 化 数据 集 ， 包 括 生物 研究 数据 库 和 大 众 协作 数 
据 库 ， 如 DBpedia、Freebase 或 语义 Web。 所 有 这 些 数据 集合 都 拥有 很 
多 共同 的 属性 ， 这 些 属性 往往 不 具备 直接 的 应 用 价值 ， 但 是 当 我 们 想 
要 充分 挖掘 已 有 数据 的 应 用 价值 、 或 者 确定 应 该 从 何 处 入 手 ， 以 及 如 
何人 花费 精力 和 资金 来 提升 这 些 价 值 时 ， 这 些 属 性 将 非常 重要 。 











弓 术 史 和 考古 学 的 资料 库 的 数据 来 源 有 很 多 种 ， 如 图 书 馅 目录 和 
文献 目 邓 、 图 片 归 档 库 、 博 物 馅 目录 以 及 一 些 通用 的 研究 数据 库 。 所 
有 这 些 可 能 都 是 基于 非常 复杂 的 数据 模型 进行 构建 的 ， 而 且 只 要 数据 
足够 多 ， 有 即便 是 最 之 味 的 例子 一 一 不 管 表面 上 看 起 来 有 多 么 简单 一 一 
其 中 的 任意 一 种 关联 关系 都 会 复杂 得 让 人 困惑 。 专 题 报 道 可 能 涉及 所 
有 的 人 造 事物 : 比如 美国 国会 图 书馆 分 类 系统 会 处 理 包括 艺术 家 、 食 
谱 力 至 物理 学 论文 等 所 有 东西 。 




















对 文艺 复兴 时 期 的 仿古 艺术 品 和 建筑 开展 的 普查 统计 进行 可 视 化 


( (htp: /Wwww.census.de]， 该 普查 统计 是 由 Richard Krautheimer ` Fritz 


Saxl 和 Karl Lehmann-Hartleben 在 1947 年 发 起 的 。 它 收集 了 古代 的 历史 遗 
迹 ， 比 如 罗马 雕塑 和 建筑 ， 在 西方 文艺 复兴 时 期 的 作品 如 写生 、 素 描 
和 旅游 手册 。 用 于 存储 这 些 数据 的 数据 库 在 2006 年 刚 从 基于 图 形 的 数 
据 库 系统 ( (CNSUS 2005) 转换 成 更 传统 的 关系 型 数据 库 ( (CNSUS 
BBAW)。 我 们 将 分 析 数 据 库 在 转换 之 前 那个 时 间 点 的 状态 。 有 了 这 份 
数据 ， 我 们 将 可 以 就 历史 状态 和 当前 以 及 今后 的 成 就 进行 比较 。 





越 多 越 好 吗 


在 艺术 研究 数据 库 领 域 工作 的 10 余 年 之 中 ， 一 直 存 在 的 最 为 耐 人 
寻味 的 问题 之 一 是 如 何 衡量 项 目的 质量 。 人 文 领域 的 数据 库 很 少 会 像 
学 术 文章 那样 被 引用 ， 因 此 在 出 版 发 行 行业 中 的 常用 评估 标准 并 不 适 
合 。 然 而 ， 大 多 数 评 估 只 是 基于 很 多 肤浅 的 标准 ， 比 如 是 否 和 制定 的 
标准 一 致 、 用 户 接 口 质量 、 是 否 有 很 炫 的 项 目 名 称 以 及 在 项 目 摘 述 中 
征 否 使 用 了 最 近 的 流行 语 。 而 对 于 内 容 ， 评 佑 者 通 利 只 是 采用 一 些 基 
本 的 衡量 标准 ， 如 查看 数据 库 中 的 记录 条 数 、 询 问 一 些 和 很 多 特定 条 
目的 微妙 之 处 相关 的 问题 。 




















在 数据 标准 的 定义 中 ， 如 数据 模型 中 的 CIDOC 概 念 参考 模型 
( (CDOC Conceptual Reference Model,CIDOC-CRM) 或 数据 交换 中 的 “ 获 


取 元 数据 的 开放 信息 仓库 首创 协议 ”( (Oen Archives Initiative Protocol 
for Metadata Harvesting,OAI-PMH) 中 存在 的 一 个 问题 是 ， 它 们 通常 需要 
使 用 先 验 知识 ， 同 时 在 它们 的 框架 中 却 没有 提供 与 正在 收集 和 处 理 的 
数据 相关 的 任何 信息 。 用 户 界 面 也 存在 同样 的 问题 ， 其 提供 的 天 于 内 
容 质 量 的 信息 就 好 比 只 给 一 张 打 印 纸 提供 了 长 宽 比 信息 。 此 外 ， 数 据 
标准 和 用 户 界 面 都 会 随时 间 变 化 ， 这 使 得 以 其 作为 评估 标准 的 合理 程 
度 的 判断 更 为 困难 。 正 如 每 一 个 程序 员 所 知 ， 一 个 用 老 的 Fortran 语 言 
实现 的 算法 和 用 当前 流行 的 Python 脚本 实现 的 可 以 一 样 优雅 ， 而 且 速 度 
甚至 能 够 更 快 。 因 此 ， 我 们 在 项 目 评估 中 应 该 避免 任何 形式 的 系统 
观 俩 见 ， 也 惑 是 说 ， 一 个 坚守 某 个 标准 的 用 户 不 应 该 旦 惧 其 他 标准 的 
粉丝 所 做 的 评价 。 











即使 我 们 一 致 认为 应 用 标准 是 可 取 的 ， 如 “开放 访问 *( (Oen 
Access) 标 准 (也 称 “ 开 放 存 取 ”) ， 但 是 其 带 来 的 影响 也 是 值得 商 梭 
的 : 虽然 “开放 访问 ”给 当前 很 多 项 目 提 供 了 积极 的 作用 ， 但 其 在 资料 
库 领 域 的 痪 义 并 不 完全 清晰 。 我 们 是 人 否 真 的 应 该 满足 于 一 个 复杂 但 锡 
费 的 用 户 界面 (如 图 10 所 示 ，Bartsch 2008) ， 或 者 我 们 是 否 应 该 更 倾 
向 于 选择 复杂 的 API 以 及 周期 性 地 对 数据 执行 全 库 导 出 (如 Freebase)， 
后 者 是 否 会 市 来 更 严格 的 数据 分 析 以 及 更 高 深 的 数据 重用 ? 如 果 都 采 
用 “开放 访问 ”标准 ， 还 有 谁 会 愿意 给 私有 的 企业 数据 资料 库 付 费 呢 ? 











最 后 ， 我 们 必须 碍 看 任何 给 定 项 目的 实际 内 容 。 正 如 本 章 中 将 会 
说 明 的 ， 当 对 数据 库 进行 评估 时 ， 只 研究 一 些 特定 条 目的 微妙 之 处 所 
带 来 的 意义 很 有 限 ， 因 为 通常 情况 下 不 存在 通用 的 信息 来 衡量 任何 特 
定 的 数据 库 条 目 。 无 处 不 在 的 “长 尾 *( (lng tails) 问 题 ( (Aderson 2006, 
Newman 2005，Schich 等 2009) |, RI TEREZ HS], RARES 
些 富 信息 的 数据 条 目 到 整个 数据 库 中 是 不 明智 的 一 一 也 就 是 说 ， 在 
CENSUS， 我 们 无 法 只 基于 “万 神殿 ” 推 新 所 有 其 他 的 古代 遗迹 。 





























评估 中 常用 的 最 公正 的 衡量 标准 是 数据 库 的 记录 数 。 几 乎 所 有 的 
项 目 说 明 书 中 都 包含 该 标准 : 百科 全 书 列 出 了 它们 所 包含 的 文章 的 数 
A (如 维基 百科 ) ; 生物 医学 数据 库 公 布 了 化 合 物 、 基 因 或 者 其 包含 
的 蛋白 质 的 数量 (如 Phosphosite 2003~-2007 或 Flybase 2008) ; 甚至 是 
传统 的 搜索 引擎 (但 是 数量 越 来 越 少 ) 在 它们 的 索引 中 提供 了 页 面 数 
量 ( (Sllivan 2005) 。 因 此 ，CENSUS 项 目 也 提供 了 一 些 数字 说 明 是 不 
KEN PEAY: 








HI 205 &A A ARAN CSE ` A ` AH ` ERAK ` 
事件 、 研 究 文献 和 说 明 。 登 记 的 古迹 约 有 6500 个 ， 十 迹 条 目 约 12000， 
文献 条 目 约 2800011 。 








虽然 从 忆 术 史 角 度 看 ， 这 些 数字 很 让 人 震撼 ， 因 为 一 个 大 型 展览 
目录 通常 仅仅 包括 几 百 个 条 目 。 但 是 在 查看 具体 个 例 时 ， 可 以 很 容易 
地 找到 反例 证 明 用 记录 数 作为 衡量 数据 库 质 量 的 关键 指标 是 不 合适 





的 。 由 于 搜索 引擎 处 理 邻近 相关 的 副本 ( (Cakrabarti 2003) 、 如 
CENSUS 这 样 的 研究 数据 库 目 标 是 对 数据 进行 范 化 ， 其 方式 是 通过 消除 
原始 数据 中 的 不 确定 性 和 曾经 的 意见 不 一 带 来 的 明显 的 元 余 。 图 14-1 中 
的 例子 很 让 人 人 吃惊。 注意 ， 连 接 总 数 在 泛 化 前 后 保持 不 变 ， 由 此 引出 
了 一 个 更 有 意义 的 对 质量 进行 初步 近似 评估 的 指标 ， 使 用 连接 数 和 节 
点 数 的 比例 :3/6 和 3/4 (在 本 例 中 ) 。 
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图 14-1: 缩小 记录 数 ， 提 高 数据 集 质 量 





显然 ， 为 了 评估 给 定数 据 库 的 质量 ， 需 要 有 更 复杂 的 措施 。 如 采 
我 们 真 的 想 知 道 数 据 集 的 价值 ， 我 们 需要 查看 生成 的 全 局 结构 ， 常 用 
指标 无 法 显示 这 些 。 对 于 任何 数据 集 ， 我 们 唯一 可 以 预期 的 是 全 局 结 
构 可 以 特征 化 并 生成 一 个 复杂 的 系统 。 复 杂 性 源 于 人 们 在 本 地 所 执行 
的 操作 ( (Cua 2005) ， 也 因为 数据 源 的 可 用 性 和 人 们 对 它 的 关注 度 本 
质 上 十 非 第 异 构 的 。 此 外 ， 每 个 资料 库 的 管理 员 对 于 先 验 数据 模型 的 
定义 都 有 不 同 的 看 法 。 由 此 导致 的 结构 化 复杂 性 难以 预测 ， 我 们 需要 
以 有 意义 的 方式 对 数据 库 进 行 衡量 和 可 视 化 。 





[1] ÆI http://www.census.de,retrieved 9/14/2009 ° 


把 数据 库 看 做 网 络 





艺术 史 和 考古 学 领域 的 结构 化 数据 ， 正 如 在 任何 其 他 领域 一 样 ， 
有 很 多 形式 ， 比 如 关系 型 或 面向 对 象 型 的 数据 库 、 电 子 表格 、XML 文 
档 和 RDF 图 ; wiki、PDF、HTML 页 面 上 的 半 结 构 化 数据 以 及 传统 纸张 
上 的 (可 能 比 其 他 领域 包含 的 半 结 构 化 数据 都 要 多 ) 。 不 考虑 这 些 表 
现形 式 的 细 广 ， 基 础 的 技术 结构 通常 涉及 3 个 领域 : 





一 个 数据 模型 协定 ， 包 括 从 存放 在 木 盒子 里 的 简单 的 索引 卡片 的 
分 隅 板 到 你 最 喜爱 :的 展示 语言 中 的 复杂 的 本 体 。 





-数据 格式 规则 ， 包 括 显示 模板 如 透镜 ( (Petriga 等 2006) 或 者 预定 
义 的 查询 指令 。 





-数据 处 理 规则 ， 根 据 数 据 格式 化 指令 执行 的 处 理 规则 。 


在 这 里 ， 我 们 最 感 兴趣 的 是 选 定 的 数据 模型 协定 如 何 和 已 有 的 数 
据 关 联 。 





正如 Toby Segaran 在 《数据 之 美 》 一 书 中 所 指出 的 ， 数 据 模 型 协定 
有 两 个 不 同 的 思路 。 其 一 ， 每 当 需 要 增加 新 的 信息 时 ， 可 以 给 数据 库 
创建 新 表 、 给 已 有 表 增 加 新 的 列 和 索引 ， 以 及 在 不 同 表 之 间 建 立新 的 
关联 ， 这 种 方式 导致 数据 库 模型 变 得 更 加 复杂 。 其 二 ， 可 以 创建 一 个 


非常 基础 的 模式 ， 如 图 14-2 所 示 ， 该 模式 可 以 文 持 任 何 类 型 的 数据 ， 
本 质 上 古 把 数据 表示 成 一 张 图 而 不 是 一 组 表 。 








NodeID SourceNodeID 


NodeLabelname TargetNodeID 
NodeType LinkType 





Al 14-2: 数据 库 可 以 映 冉 为 基础 的 节点 和 边 模 式 


如 上 表 所 示 ， 可 以 认为 每 个 数据 库 都 是 一 个 网 络 。 数 据 库 条 目 代 
表 网 络 的 节点 ， 而 节点 间 的 关联 关系 代表 网 络 的 边 〈 即 所 谓 的 边 或 连 
接 ) 。 如 果 我 们 把 艺术 研究 数据 库 看 作 网 络 ， 束 会 产生 很 多 可 能 的 市 
扩 类 型 :节点 可 以 是 各 种 实体 对 象 如 古迹 、 文 献 、 人 物 、 地 后、 时 间 
或 事件 的 条 目 ( (Sxl1974) 。 两 个 节点 之 间 的 任何 关系 (如 “图 片 A 是 
由 B 创 建 的 ”) 都 可 以 是 一 条 连接 或 边 。 因 此 ， 基 于 不 同 的 节点 之 间 的 
关系 ， 存 在 大 量 可 能 的 连接 类 型 。 








网 络 中 的 节点 和 边 的 类 型 的 先 验 定 义 和 传统 的 数据 模型 一 致 ， 能 
够 描述 由 很 多 管理 员 生 成 的 大 量 数 据 的 集合 。 此 外 ， 采 用 网 络 描述 使 
得 在 复杂 网 络 科 学 中 的 计算 分 析 方 法 可 以 直接 应 用 ， 获 取 所 有 可 用 数 
据 的 大 范围 的 全 局 概览 成 为 可 能 。 因 此 ， 对 于 隐藏 于 当前 的 知识 范围 
以 外 的 通过 对 数据 库 概念 化 和 普通 的 本 地 查询 等 方式 无 法 发 现 的 结 
构 ， 我 们 现在 拥有 发 现 能 力 了 。 反 过 来 ， 这 种 方式 也 促使 我 们 超越 通 





常 的 质量 评估 衡量 标准 : 可 以 先 检查 数据 和 数据 模型 的 适合 度 ， 采 用 
的 标准 是 否 是 恰当 的 ， 以 及 将 数据 库 与 其 他 数据 源头 联 起 来 是 否 合理 


FE oo 
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可 见 的 数据 模型 定义 


为 了 对 基础 的 结构 有 一 个 了 解 ， 我 们 在 数据 库 评 信 中 首先 布 望 看 








到 的 是 数据 模型 一 一 可 能 的 话 ， 它 应 包含 拉 述 数据 在 模型 内 的 分 布 情 
况 的 一 些 指标 。 如 果 是 从 数据 库 的 图 形 表 示 出 发 ， 如 图 14-2 所 示 ， 这 古 


一 个 简单 的 任务 。 我 们 所 需要 的 就 是 一 个 闻 点 集合 和 一 个 边 集 合 ， 这 

两 个 集合 可 以 很 容易 地 通过 一 组 关系 表 生 成 ， 如 果 数 据 库 可 以 导出 为 

RDF 格 式 ( (Feebase 2009) 或 者 作为 连接 数据 ( (Bzer、Heath 和 Berners- 
Lee 2009) ， 甚 至 还 可 以 免费 获取 。 有 了 这 两 个 集合 的 数据 之 后 ， 使 用 
制图 应 用 程序 如 Cytoscape(Shannon 等 2003) 一 一 一 个 起 源 于 生物 网 络 

科学 社区 的 开源 应 用 程序 ， 可 以 很 容易 地 生成 节点 -连接 图 。 节 终 的 图 
表 如 图 14-3 所 示 ， 使 用 类 似 于 普通 的 实体 -关系 ( (E) 图 ( (Cen 1976) 的 
方式 描述 给 定 的 数据 模型 ， 并 在 图 中 包含 了 一 些 实际 数据 的 量化 信 
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图 14-3 中 的 CENSUS 数 据 模 型 是 从 图 14-2 中 描述 的 数据 库 模 式 中 抽 
取出 一 个 “元 数据 网 络 ”( (mtanetwork): 每 种 节点 类 型 都 是 一 个 “元 节 
点 ”( (mtanode)， 每 种 连接 类 型 是 一 个 “元 连接 ”( (mtalink)， 它 连接 两 
个 元 节点。 元 节点 的 大 小 反映 了 节点 的 实际 数目 ， 元 连接 线 的 长 度 反 
映 了 连接 的 实际 数量 ， 这 种 方式 为 我 们 提供 了 一 种 数据 库 模 型 内 的 有 
效 的 数据 分 布 的 直观 表述 形式 。 注 意 节 点 大 小 和 连接 线 长 度 在 不 同类 











型 之 间 是 高 度 异 构 的 ， 在 我 们 的 例子 中 包含 了 4~5 个 不 同 维度 。 常 见 
的 节点 和 连接 类 型 在 实际 中 出 现 的 次 数 要 远 远 多 于 绝 大 多 数 不 芝 见 的 
节 扩 类 型 一 一 传统 的 ER 数据 结构 图 通 稼 并 没有 反映 出 这 一 点 ， 这 往往 
导致 在 一 些 特定 数据 模型 中 人 们 对 一 些 几 乎 不 相关 的 领域 进行 了 见长 
的 讨论 。 
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图 14-3: CENSUS 数 据 模型 和 加 权 的 节点 -连接 图 ( 见 彩 图 116) 








节点 和 连接 类 型 频 度 的 异 构 性 并 非 仅 仅 存 在 于 图 14-3 所 给 出 的 例子 
中 。 在 很 多 数据 集中 都 可 以 观察 到 这 一 现象 ， 而 不 管 其 类 型 数目 是 预 


定义 的 还 是 随 着 管理 员 的 人 数 而 变动 的 ， 比 如 研究 数据 库 ( (Shich 和 
Ebert-Schifferer 2009) 、 大 量 的 文献 目录 ( (Shich4#2009) , Freebase 
和 连接 数据 云 。 据 我 所 见 ， 每 种 节点 类 型 的 节点 数目 和 每 种 连接 类 型 
的 连接 数目 都 呈现 出 右 偏 衰减 分 布 ， 即 众所周知 的 “长 尾 *( (Aderson 
2006, Newman 2005) 现象 ， 并 且 在 分 布 中 并 不 具备 正 态 高 斯 分 布 中 均 
值 相 同 的 特征 。Web 页 面 中 超 链 接 的 “长 尾 ” 结 构 一 一 也 就 是 说 ， 一 种 特 
定 的 连接 类 型 只 存在 于 一 种 节点 类 型 之 上 一 一 在 过 去 10 年 中 一 直 是 众 
所 周知 的 ( (Sience 2009) 。 图 14-3 清 晰 地 证 明了 在 节点 和 连接 类 型 中 
所 观察 到 的 异 构 性 ， 在 更 加 结构 化 的 数据 图 形 中 ， 不 同 层次 的 节点 和 
连接 类 型 中 也 存在 异 构 性 。 

















Preservation Event 
Record History 
Main Entry 


Document 
Monument 
Provenance Event 
Person 
Location 
Date 

Style 
Bibliography 
Citation 
Image 
Inscription 


total number of nodes: 31197 12688 566 226! 5878 1715 2317 3584 28 2421 36606 25865 37324 77746 17 





Document 










Person 


Location: 
Date :: 


Style 






sssscosesesss 


Bibliography 
Citation l see Figure 5 


Image 


s 


Inscription Number of links. 
Record History 


Main Entry 24 


图 14-4: AWIE st ze7RAICENSUSEUE RR ( 见 彩 图 
117) 


网 络 维度 


进一步 观察 图 14-3， 我 们 可 以 发 现 CENSUS 数 据 库 的 核心 维度 
一 一 古迹 和 文献 一 一 为 一 些 额外 信息 所 包围 。 古 迹 和 文献 都 是 实体 对 
象 ， 但 是 到 目前 为 止 ， 它 们 之 间 的 区 别 在 于 前 者 是 中 心 文献 连接 的 目 
标 ， 而 后 者 是 中 心 文献 连接 的 源头 。 虽 然 通 党 来 说 任何 实体 对 象 都 可 
以 作为 古迹 或 文献 ， 但 是 CENSUS 把 它们 划分 成 了 离散 的 节点 类 型 ， 
因为 这 两 种 类 型 属于 不 同 的 时 期 (古典 和 西方 文艺 复兴 ) : 文艺 复兴 
时 期 的 绘画 、 素 描 、 文 本 等 记录 了 古代 罗马 的 雕刻 和 建筑 构造 。 








除了 上 述 几 个 重要 的 维度 ， 还 有 男 外 一 种 个 称 之 为 “副本 ”的 市 点 
类 型 代表 实体 对 象 ， 用 于 代表 后 来 的 副本 古迹 ， 它 只 存在 于 文艺 复兴 
的 特定 时 期 之 后 。 如 果 要 对 CENSUS 数 据 库 进行 泛 化 ， 包 含 从 古代 至 
SARE MY Tel af, FE + SCHAAR ARE GMP RAT AT AR 
型 是 有 意义 的 ， 因 为 所 有 的 函数 都 是 通过 特定 节点 的 入 度 或 者 出 度 来 
定义 的 。 在 20 世 纪 80 年 代 早 期 ， 当 刚 开 始 构想 数据 模型 时 ， 其 设计 受 
到 关系 数据 库 的 茶 些 功能 的 约束 。 这 些 约束 现在 不 存在 了 ， 因 此 改变 
成 为 可 能 。 








如 图 14-3 所 示 ， 分 布 在 实体 对 象 旁 边 的 对 象 包 括 : 人 物 、 地 点 和 
时 间 范 围 (如 日 期 和 风格 ) 。 这 些 维度 之 间 的 关联 关系 绝 大 多 数 使 用 
直接 连接 的 方式 进行 建 模 。 举 个 例 和 于 ， 每 个 人 直接 与 出 生地 点 和 出 生 


日 期 连接 ， 因 此 在 没有 进一步 的 注释 说 明 的 情况 下 ， 无 法 识别 出 同一 
个 人 两 次 出 生 的 事件 (如 Venice 1573 和 Bologna 1568) 。 


其 他 示例 快捷 方式 包括 文献 艺术 家 归属 和 第 一 次 文艺 复兴 状态 文 
献 。 同 样 ， 不 增加 注释 说 明 是 无 法 消除 歧义 的 。 对 于 艺术 家 归属 ， 
CENSUS 管 理 员 需要 做 出 决策 ， 而 不 是 记录 多 个 意见 。 而 对 于 第 一 次 
文艺 复兴 状态 的 记录 ， 定 义 上 只 存在 一 个 唯一 的 实例 。 第 二 次 文艺 复 
兴 的 状态 被 记录 成 保存 事件 ， 很 显然 这 是 简化 数据 模型 的 一 个 机 会 。 








保存 和 起 源 事件 是 前 文中 提 到 的 捷径 的 一 个 值得 注意 的 例外 情 
况 。 它 们 指出 特定 的 古迹 是 由 人 物 改变 或 者 展现 在 一 个 特定 的 位 置 、 
特定 的 日 期 ， 正 如 特定 文献 中 所 记录 的 。 保 存 和 起 产 事 件 都 很 容易 消 
除 歧 义 。 





对 文献 的 不 同意 见 可 以 反映 于 多 个 事件 中 ， 把 不 同 的 古迹 、 人 

物 、 地 点 和 日 期 烙 合 在 一 起 。 对 于 实体 对 象 ， 事件 的 本 质 是 由 特定 的 
连接 来 定义 的 。 因 此 ， 可 以 进一步 对 数据 模型 进行 泛 化 ， 正 如 
CENSUS 所 激发 的 某 些 项 目 如 Winckelmann Corpus (2000) 。 通 常情 
况 下 ， 事 件 可 以 归结 为 所 谓 的 星 形 模式 (参考 Milo 等 2002) ， 包 含 特 
定 的 连接 类 型 。 当 前 ， 事 件 类 结构 是 很 多 数据 库 模 型 的 标准 特征 ， 如 
Freebase， 它 们 被 称 为 复合 值 类 型 ( (cmpound value type)。 原 则 上 ， 我 
们 还 可 以 使 用 其 他 类 型 的 网 络 查看 这 些 事件 ， 它 们 并 非 非常 明显 ， 而 
是 内 在 地 作为 新 型 星 形 模式 存在 (如 连接 数据 图 ) 。 





通过 提供 很 多 “元 维度 *( (mtadimensions) 的 信息 源 ， 如 ER) 
文献 目录 ，CENSUS 数 据 库 变 成 了 权威 ， 即 被 引用 。 文 献 目 隶 义 进 一 
步 伞 划分 成 引用 ， 它 是 由 单独 的 市 点 类 型 来 表示 的 。 为 一 个 来 源 维度 
苹 图 像 节 点 类 型 ， 它 包含 从 主要 的 图 像 库 中 招 摄 的 照片 。 同 样 的 ， 文 
献 目 孙 和 网 像 都 有 表示 实体 对 象 功 能 ， 瑟 是 通过 一 些 相 邻 连接 定义 
的 。 


其 他 节点 类 型 包括 : 记录 历史 ， 管 理 员 把 他 们 的 操作 日 志 记 录 到 
其 他 节点 中 ; 主 条 目 维度 ， 在 把 CENSUS 转 换 成 关系 数据 库 后 可 能 
会 再 存在 。 前 者 是 基于 图 形 的 系统 ， 由 于 缺乏 数据 表 ， 需 要 通过 主 条 
目 把 数据 库 分 成 不 同 部 分 ， 把 任务 、 地 点 等 结合 起 来 促进 导航 。 
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图 14-3 的 节点 连接 图 是 描述 CENSUS 数 据 模型 的 众多 可 能 方式 中 的 
一 种 。 正 如 由 节点 和 边 构 成 的 任何 网 络 一 样 ， 我 们 也 可 以 使 用 所 谓 的 
邻接 矩阵 (参考 Garner 1963; Bertin 1981; Bertin 2001; Henry 2008) 
来 表示 这 个 数据 模型 ， 如 图 14-4 所 示 。 在 这 种 描述 形式 里 ， 节 点 的 类 型 
使 用 表 的 垂直 列 和 水 平行 表示 ， 在 单元 格 中 显示 忆 点 信息 。 比 如 出 生 
地 信息 ， 你 可 以 假定 存在 一 条 连接 ， 从 “人 物 *( (Prson) 所 在 的 行 罕 过 不 
同 单元 格 指 向 了 “位 置 ( (Lcation) 所 在 的 列 。 





类 似 于 市 操 连 接 图 ， 邻 接 和 矩阵 还 可 以 揪 述 出 两 种 类 型 的 太 扩 之 间 
的 连接 数 ， 数 子 显 式 地 出 现在 相应 单元 格 中 ， 而 不 再 通过 如 图 14-3 中 线 
条 的 宽度 来 表示 。 这 是 世 点 邻接 矩阵 不 同 于 节点 连接 图 的 重大 之 处 : 
我 们 现在 关注 的 主要 是 连接 而 非 广 点 了 。3 引 人 注目 的 是 ， 图 14-4 中 的 短 
阵 不 仅 显 示 了 不 同类 型 市 点 之 间 的 连 授 ， 而 且 非 常 清晰 地 说 明了 哪些 
节点 类 型 间 没 有 直接 关联 。 换 句 话 说 ， 邻 接 矩 阵 可 以 同时 表示 正 关联 
和 仙 关 联 关 系 。 其 中 的 一 个 例子 是 不 存在 从 作 着 、 出 版 地 点 、 出 版 日 
期 到 文献 目录 的 连接 虽然 CENSUS 提 供 了 这 些 信息 ， 但 它 只 存在 于 市 
点 描述 文本 和 市 点 标签 缩写 中 (如 Nesselrath 1993) 。 当 然 ， 我 们 从 节 
扩 连 接 图 中 也 能 发 现 这 种 信息 缺失 ， 但 古 在 邻接 矩阵 中 这 一 点 更 为 明 
显 。 除 了 两 种 市 点 类 型 之 间 的 连接 总 数 ， 在 邻接 答 阵 单元 中 还 可 以 放 

















置 很 多 其 他 有 用 的 信息 。 举 个 例子 ， 如 图 14-5 所 示 ， 我 们 可 以 看 到 一 个 
aE SAAT AY Es IL REA BSS PT 
间 关 系 的 连接 。 这 个 图 是 我 们 使 用 一 种 布局 算法 (比如 Cytoscape 应 用 
中 的 yFiles 有 机 布局 算法 ) 生成 的 ， 这 是 一 种 运算 成 本 相对 较 低 的 方 
法 。 因 此 ， 数 据 库 中 的 所 有 显 式 的 节点 和 连接 数据 都 在 这 个 数据 模型 

和 窍 阵 中 得 到 了 展示 。 
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A| 14-5: CENSUS 数 据 模型 的 邻接 矩阵 表示 ， 包 含 节 点 连接 图 ， 即 实 
际 数据 ( 见 彩 图 118) 
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个 数据 库 中 的 很 多 信息 。 


首 


先 ， 我 们 发 现 有 些 单元 格 的 结构 看 起 来 更 复杂 ， 而 大 多 数 单元 格 是 由 


一 些 很 梧 燥 的 星 形 图 或 者 是 由 仅仅 两 个 节点 连 


至 接 在 一 起 的 二 元 图 表 





示 。 我 们 还 发 现 所 有 单元 格 包含 互 不 连通 的 





列 络 ， 看 起 来 是 被 分 


离 成 


为 了 几 个 不 同 的 离散 分 支 《连接 节点 的 多 个 分 组 ) 。 耐 人 寻味 的 是 ， 
在 这 张 图 中 不 同 部 分 的 大 小 差别 很 大 。 无 论 对 于 哪个 分 文 ， 我 们 看 到 
的 都 是 一 个 “长 尾 ”( (Ing tail)。 一 个 非常 明显 的 例子 是 “文献 -位 

置 ”( (Dcument-Location) 单 元 格 ， 这 个 单元 格 是 一 个 非常 清晰 地 逐渐 消 
失 的 星 形 序列 ， 即 与 单个 位 置 相关 联 的 文献 的 数量 越 来 越 少 ， 即 使 在 
分 布 最 为 届 平 的 单元 格 中 ， 如 文献 -图 片 单 元 格 ， 只 有 少数 几 个 规模 相 
当 大 的 分 组 ， 而 剩余 的 则 是 二 元 组 。 


在 “位 置 -位 置 ”( 〈Lcation-Location) 单 元 格 中 ， 还 有 一 种 更 为 稀疏 
的 “长 尾 ” 形 式 。 这 个 市 点 中 包含 的 是 世界 地 理 位 置 分 层 信 息 ， 根 节点 
只 有 一 个 ， 代 表 全 世界 ， 各 级 子 节 点 依次 细 分 成 国家 、 地 区 、 城 镇 直 
到 个 别 地 点 。 每 个 位 置 的 划分 数 也 是 异 构 分 布 。 大 多 数 细 分 位 于 意 大 
利 境 内 ， 世 界 其 他 地 方 的 信息 基本 都 不 显示 。 最 显著 的 位 置 显然 是 罗 
马 ， 它 被 细 分 成 了 很 多 地 区 。 对 罗马 的 突出 显示 使 我 想起 了 人 类 大 脑 
的 感官 神经 模型 的 超大 空间 ( (Pnfield 和 Rasmussen 1950; Dawkins 
2005) 一 一 CENSUS 看 似 包含 了 一 个 人 体 模 型 。 正 如 大 脑 中 大 面积 的 运 
动 皮 质 区 是 用 于 手 - 眼 的 协作 和 手 上 的 触觉 感应 。 从 CENSUS 的 地 理 位 
置 分 层 特点 来 看 ，CENSUS 重 点 收集 了 位 于 罗马 的 雕塑 群 。 正 如 一 个 钢 
雁 大 师 的 大 脑 皮层 中 与 灵巧 和 手工 控制 相关 的 部 分 较 之 于 普通 人 会 占 
有 更 多 的 皮层 空间 ，CENSUS 看 起 来 是 专业 定制 的 一 一 如 引入 了 Ulisse 
Aldroandi 的 名 著 (1556 年 和 1562 年 ) ， 它 列 出 了 罗马 的 成 千 上 万 的 雕 
3A (参考 Schich 2009) ° 

















图 14-5 的 另 一 个 有 趣 的 特征 在 于 很 多 单元 格 中 的 不 成 比例 的 大 星 形 
图 。 有 些 星 形 图 是 数据 的 自然 属性 ， 如 连接 到 Bibliographic 节 点 Bartsch 
1854-1870 的 11927 个 文献 节点 ， 或 者 是 出 生 在 意大利 或 罗马 的 1146 个 
人 。 然 而 ， 绝 大 多 数 大 型 星 形 图 和 未 知 条 目 相 关 ， 比 如 不 明 古 迹 、 人 
物 、 人 位置、 日 期 或 风格 ; 所 有 这 些 单个 斑点 都 和 确定 的 信息 关联 ， 这 
样 有 助 于 进一步 收藏 。 在 我 们 的 数据 集中 ， 存 在 1350 个 无 法 确定 的 古 
迹 、5992 个 创作 者 未 知 的 古迹 、5531 个 地 点 未 知 的 古迹 、2752 个 创作 
日 期 不 明 的 古迹 、2465 个 风格 不 明 的 古迹 ;483 个 参与 者 未 知 的 遗迹 保 
护 事件 、559 个 发 生地 点 不 明 的 起 源 事件 。 可 以 确定 的 是 ， 人 允许 所 有 这 
些 含有 未 知 属 性 的 条 目 存在 并 非 是 一 个 错误 ;比如 未 知 日 期 属性 可 以 
驳 倒 一 个 错误 的 文艺 复兴 时 期 的 日 期 属性 。 此 外 ， 这 些 数字 还 说 明了 
我 们 的 知识 的 局 限 性 。 另 一 个 考虑 是 如 果 我 们 想 要 分 析 每 个 单元 的 网 
络 结构 ， 我 们 需要 绕 开 (或 者 具体 化 ) RATA; 否则， 以 地 理 节点 
为 例 ， 位 置 未 知 的 节点 会 将 很 多 位 于 不 同 地 方 的 未 被 关联 的 节点 连接 
起 来 。 

















MORRIE 


如 果 我 们 回 过 头 再 去 查看 图 14-3， 我 们 会 发 现 CENSUS 数 据 库 中 共 
有 31197 条 文献 记录 ， 其 中 只 有 3087 个 节点 连接 到 了 主 条 目下 的 文献 管 
理 处 。 这 说 明了 一 个 重要 事实 : 数据 库 中 的 大 量 文 献 是 以 节点 树 的 形 
式 组 织 的 。 实 际 上 只 有 3087 个 文献 ， 包 括 28110 个 子 节 点 ， 这 些 子 节 点 
被 用 来 表示 页 数 、 图 形 和 那些 图 形 或 文本 段落 内 的 各 个 部 分 一 一 一 个 
直到 现在 仍然 很 少 为 人 们 所 探讨 的 数据 库 的 事实 。 上 古迹 也 存在 同样 的 
现象 ， 只 有 少量 的 记录 (特别 是 结构 分 类 ) 可 以 划分 成 包括 建筑 部 
件 、 房 间 其 至 是 很 小 的 建筑 装饰 上 的 特征 。 第 三 个 例子 是 文献 目录 ， 
它 被 进一步 划分 成 了 多 种 引用 ， 比 如 在 现代 学 术 著 作 中 的 文本 段落 。 











如 图 14-5 中 所 示 ， 引 入 这 些 子 分 类 的 结果 十 特定 连接 指 同 或 者 源 晶 
RED TA: 从 部 分 古迹 指 同 部 分 文献 ， 而 不 是 整个 古迹 指 癌 整个 文 
献 ， 或 者 从 表示 大 岳 特 征 的 茶 个 列 指 同 特 定 的 速写 图 中 的 一 部 分 。 这 
些 划 分 使 得 无 重大 信息 损失 的 数据 存储 成 为 可 能 。 然 而 ， 在 这 个 配置 
中 我 们 可 以 解决 的 问题 通常 过 于 具体 。 为 了 换 示 更 为 有 趣 的 全 局 性 属 
性 并 回答 诸如 一 组 古迹 中 有 多 少 手 抄本 出 现 〈 而 不 是 总 共有 多 少 图 
É) ， 或 者 它们 在 书籍 中 被 引用 的 频率 (而 不 是 总 共有 多 少 引 用 ) 之 
类 的 问题 ， 我 们 需要 改善 邻接 窍 阵 图 。 该 问题 的 一 个 解决 方案 是 折 爱 








如 图 14-6 中 的 各 个 子 分 类 下 的 文献 、 古 迹 和 文献 目 邓 引用 市 点 ， 图 14- 
7a 所 示 的 是 据 此 重新 绘制 而 得 到 新 的 邻接 矩阵 图 。 


把 文献 、 上 古迹 和 文献 目录 引用 树 折 车 成 单个 节点 的 方法 如 下 ( 参 
# Schich 2009) 。 在 图 14-6a 中 ， 我 们 首先 找到 原始 文献 树 : 一 本 包含 
很 多 页 的 书 ， 被 划分 成 多 个 子 图 形 。 单 个 连接 指向 多 个 古迹 或 者 古迹 
的 一 部 分 。 为 了 对 树 进 行 折 县 ， 我 们 把 书 表示 成 单个 节点 ， 并 把 所 有 
和 子 划 分 相 邻 的 连接 组 合 起 来 ， 如 图 14-6a' 所 示 。 为 了 保存 尽 可 能 多 的 
言 姑 ， 我 们 给 新 的 证 扩 分 配 权 重 ， 用 来 表示 被 折合 起 来 的 于 分 类 数 ， 
给 连接 分 配 男 一 个 权 值 ， 用 于 表示 在 书 中 出 现 的 连接 的 次 数 。 从 图 形 
上 看 ， 权 值 对 应 节点 大 小 和 线条 宽度 : BAT EK, ENT aH 
中 包 全 的 子 市 点 数 越 多 ， 线 条 越 粗 ， 连 接 越 多 。 以 实际 数据 为 例 ， 原 
始 矩 阵 的 “文献 -文献 *( (Dcument-Document) 单 元 格 中 的 每 个 文献 树 都 
将 会 被 归 约 成 单个 点 ， 如 图 14-6b/b' 所 示 。 在 原始 状态 中 看 起 来 很 繁 
珊 或 简单 的 矩 孟 单元 在 折 县 后 变 得 复杂 而 有 趣 ， 如 岁 14-6c/c 中 所 示 
的 “文献 -古迹 ”( (Dcument-Monument) 单 元 格 。 
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图 14-7: 改善 后 的 CENSUS 数 据 模型 矩阵 ， 包 含 : a) 节点 连接 图 和 
b) 基础 加 权 方 式 图 ( 见 彩 图 120) 
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如 图 14-6c 所 示 ， 改 善后 的 单元 格 的 最 显著 特征 是 出 现 了 所 谓 的 最 
大 连通 分 支 ( (Gant Connected ComponentGCC)， 它 连接 了 CENSUS 数 
据 库 中 接近 90% 的 古迹 和 文献 一 一 即 存在 于 很 多 复杂 网 络 中 的 相 变 
( (pase transition) 现 象 ， 并 诞生 了 很 多 关于 信息 传播 的 重要 理论 
( (Nwman、Barabési 和 Watts 2006; Schich 2009) 。 在 最 大 连通 分 支 的 
中 心 ， 我 们 发 现 一 个 庞大 的 建筑 古迹 群 ， 它 连接 到 了 很 大 的 概览 文献 
节点 ， 如 指南 、 手 册 和 城市 地 图 。 在 最 大 连通 图 周边 的 一 个 令 人 惊讶 
的 特征 是 存在 大 量 的 连接 到 大 文献 节点 的 像 刷子 一 样 的 结构 : 显然 ， 
在 CENSUS 中 有 很 大 一 部 分 的 古迹 都 连接 到 了 同一 个 文献 ， 这 或 者 是 因 
为 文献 本 身 缺 乏 足够 的 信息 ， 或 者 是 因为 (也 可 能 是 其 他 任何 原因 ) 
管理 员 没 有 识别 出 该 文献 并 对 它 进行 泛 化 。 











因为 文献 、 古 迹 和 文献 目录 树 古 折 县 的 ， 它 对 整个 矩阵 都 有 影 
啊 。 实 际 上 ， 对 角 单 元 格 “ 文 献 - 文 献 *( (Dcument-Document) 和 “古迹 - 古 
迹 ”( (Mnument-Monument) 很 少 存在 ， 只 有 一 些 很 有 趣 的 连接 ， 如 原型 
引用 和 并 行 找 贝 天 系 。“ 引 用 -文献 目录 *( (Ctation-Bibliography) 单 元 格 
则 完全 折 县 起 来 。 


定 阵 操作 进 阶 


除了 绕 过 未 知 节 点 和 对 子 分 类 树 进行 折 受 ， 我 们 还 可 以 在 原始 矩 
阵 上 执行 很 多 其 他 操作 ， 如 图 14-5 所 示 。 对 于 任何 邻接 矩阵， 我 们 可 
以 对 列 按照 水 平 轴 、 对 行 按照 牌 直 轴 进行 排序 (或 预计 算 ) ， 而 且 不 
会 丢失 任何 信息 ( (Brtin 1981; Bertin 2001) 。 我 们 还 可 以 对 单元 格 进 
行 变换 ， 如 将 古迹 -事件 单元 转换 到 事件 -古迹 单元 ， 甚 至 是 将 整个 文 
献 目 录 列 转移 到 文献 目录 行 ， 从 而 有 效 地 翻转 连接 方向 。 最 后 ， 我 们 
可 以 通过 对 节点 创建 超级 类 型 (如 事件 、 古 迹 和 文献 目录 ) 的 方式 对 
相同 的 节点 类 型 (如 起 源 和 保存 事件 ( (Povenance and Preservation 
Events)、 古 迹 和 副本 、 或 者 是 文献 目录 和 引用 ) 进行 归并 。 这 种 归并 
方式 可 以 减少 矩阵 中 列 和 行 的 数目 ， 允 许 每 个 单元 格 在 可 视 化 中 占据 
更 大 的 空间 。 此 外 ， 和 矩阵 可 视 化 方面 的 资料 还 介绍 了 很 多 其 他 可 能 的 
操作 (参考 Henry 2008) 。 
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阵 变 得 更 简洁、 清晰 和 信息 丰富 。 我 们 可 以 很 容易 地 看 到 CENSUS 数 
据 在 数据 模型 内 是 如 何 分 布 的 : 古迹 -和 文献 目录 -显然 类 似 于 古迹 - 文 
献 ， 展 现 的 数据 信息 量 都 很 大 。 男 一 方面 ， 对 于 文献 -文献 和 古迹 - 古 
迹 依赖 关系 (如 引用 ) ， 甚 至 是 在 数据 模型 中 所 显示 的 各 个 连接 ， 则 
几乎 没有 任何 数据 。 显 然 ， 数 据 收集 工作 流 没有 以 正确 的 方式 来 系统 
性 地 收集 这 类 信息 。 与 在 原始 矩阵 中 状况 一 样 ， 我 们 在 每 个 改善 后 的 
单元 格 中 都 发 现 了 分 支 大 小 的 “长 尾 ” 现 象 。 有 些 单元 还 是 主要 包含 星 
形 图 ， 这 对 于 每 个 古迹 涉及 的 事件 数 、 每 个 文献 /古迹 的 图 像 ， 每 个 文 
献 的 雕刻 或 者 每 个 位 置 发 生 的 事件 ， 都 是 适用 的 。 对 于 文献 -位 置 单元 
的 一 个 有 趣 之 处 是 我 们 发 现 了 大 的 文献 节点 跨越 了 所 有 集合 ， 从 佛 罗 
伦 萨 的 Uffizi 到 每 个 包含 单个 手册 的 个 人 收集 。 其 他 单元 表现 出 更 重 县 
的 结构 ， 如 在 文献 和 古迹 中 的 重 琶 日 期 〈 或 者 时 间 范 围 ) 、 或 者 是 从 
风格 到 电子 古迹 如 《the Arch of Constantine》， 它 们 一 起 显示 了 罗马 
癌 国 时 期 不 同 的 浮雕 。 当 然 ， 古 迹 -文献 和 相关 的 文献 目录 包公 最 复 灯 
的 重合 ， 因 为 该 单元 是 CENSUS 项 目的 重心 。 




















数据 规模 扩大 


网 络 领 域 的 读者 可 能 会 指出 在 矩阵 中 使 用 节点 连接 图 ， 如 图 14-7a 
所 示 ， 对 于 比 CENSUS 数 据 库 大 一 个 量 级 的 数据 集 是 不 可 行 的 ， 更 不 
用 说 庞大 的 语义 Web。 确 实 ， 这 是 一 个 问题 ， 因 此 问题 是 如 何 对 以 上 
方法 进行 扩展 ， 使 它 可 以 适用 于 真正 的 大 型 数据 库 。 一 个 解决 方案 是 
使 用 维度 分 布 图 ， 甚 至 更 复杂 的 数值 网 络 衡 量 方式 ， 在 数据 模型 中 获 
取 关 于 实际 数据 的 想法 。 








如 图 14-8 所 示 ， 我 们 为 矩阵 单元 中 的 每 个 连接 类 型 描绘 了 一 张 累 
积 入 度 和 出 度 分 布 曲 线 图 ( (Boder 等 2000; Newman 2005) 。 由 于 每 
条 连接 相当 于 源 节 点 类 型 的 出 度 、 目 的 节点 类 型 的 入 度 ， 对 于 单元 中 
的 每 条 连接 都 有 两 个 分 部 。 每 条 曲线 的 x 轴 表示 连接 数 k;，y 轴 表示 累积 
概率 P(k) ， 每 个 节点 至 少 包 含 k 条 连接 。 注 意 分 布 曲线 是 以 双重 对 数 
尺度 摘 绘 的 ， 这 意味 着 每 个 刻度 是 表示 在 y 轴 上 从 100% 到 0.01% 快 速 肥 
减 ， 而 在 x 轴 上 是 从 1 到 3000 的 快速 增长 。【〈 在 规则 线性 投影 中 ， 每 个 
分 部 的 倾斜 度 很 高 ， 我 们 无 法 找 出 任何 有 趣 的 内 容 。) 令 人 吃惊 的 
是 ， 在 这 些 曲 线 图 中 都 不 存在 我 们 所 期 望 的 高 斯 钟 形 曲线 ， 如 人 的 平 
均 高 度 。 相 反 ， 我 们 发 现 其 分 布 呈 “ 长 尾 ” 分 布 ， 从 最 初 美丽 的 需 等 律 
曲线 一 直到 对 数 -线性 曲线 ， 中 间 是 一 些 较 混杂 的 分 布 曲线 。 














几乎 所 有 的 入 度 和 出 度 对 看 起 来 都 是 不 对 称 的 。 举 个 例子 , “出生 
日 期 ?和 和“ 人物? 是 以 1: nm 的 方式 连接 的 ， 而 n 值 的 变化 很 大 。 这 也 不 奇 
怪 ， 因 为 该 信息 区 并 不 受 大 众 不 同 的 观点 所 影响 ， 正 如 人 脸 图 像 数 据 
库 那 样 ， 它 的 重点 在 于 人 物 而 不 是 事物 。 其 他 区 域 如 保存 事件 发 生 的 
位 置 ， 呈 现 出 接近 精确 的 1: n 约 束 关 系 ， 因 为 一 个 事件 很 少 但 不 是 不 
可 能 出 现在 多 个 地 理 位 置 。 在 真正 的 nn 关系 中 发 现 了 最 有 趣 的 不 对 称 
性 ， 如 中 心 古迹 -文献 连 授 ， 我 们 在 连接 两 边 都 发 现 了 不 同 的 倾斜 分 
布 。 目 前 ， 应 该 如 何 充分 解释 该 不 对 称 性 还 不 完全 明确 ; 但 是 ， 通 过 
比较 很 多 数据 源 ， 显 然 这 些 不 同 的 分 布 是 由 很 多 因素 导致 的 ， 如 对 源 
数据 的 物理 限制 和 可 访问 性 ， 以 及 管理 员 的 关注 和 其 他 认 知 限制 。 























CENSUS 中 所 发 现 的 唯一 对 称 天 系 是 “文献 -文献 ”和 “古迹 - 古 迹 ” 单 
元 间 的 多 份 拷贝 和 多 份 副本 连接 。 理 想 情 况 下 ， 入 度 和 出 度 分 布 应 该 
是 完全 一 致 的 ， 因 为 相关 万 点 会 全 部 连接 到 所 谓 的 “ 簇 集 ”( (cique) 
中 。 实 际 上 ， 入 度 和 出 度 这 两 种 连接 类 型 都 随 厦 进 一 步 取向 分 布 的 “ 尾 
巴 ” 而 变 得 更 加 不 对 称 ， 因 为 很 难 维护 大 的 簇 集 。 正 如 我 在 2003 年 对 
CENSUS 项 目 提 出 的 建议 ， 连 接 到 包含 n 条 连接 的 未 知 “文献 ” 比 n 份 拷 
贝 之 间 通 过 手工 生成 n* (n-1) 个 连接 要 更 有 意义 。 














同样 ， 我 们 在 图 14-7 中 观察 到 的 一 些 天 系 ， 如 “十 迹 -文献 目 
录 ” 和 “上 古迹 -文献 ”之 间 呈 现 等 价 天 系 ， 在 图 14-8 中 得 到 进一步 确证 
( (Shich 和 Barabési 2009) 。 这 些 单元 之 间 不 仅 呈 现 出 很 明显 的 相似 关 








系 ， 而 且 在 单个 单元 格 的 不 同 连接 类 型 中 也 发 现 了 同样 的 功能 对 等 天 
系 。 一 个 很 有 说 服 力 的 例子 是 在 "文献 -古迹 ”单元 ， 一 般 的 文献 和 文 乙 
复兴 时 期 的 第 一 个 文献 之 间 的 分 布 曲线 几乎 是 水 平 的 ， 而 对 于 “事件 - 

文献 ”单元 ， 起 源 和 保存 文献 也 呈现 类 似 的 曲线 。 在 “位 置 ” 这 一 列 ， 其 
入 度 在 所 有 相关 的 单元 中 都 呈现 非常 相似 的 分 布 曲 线 。 观 察 到 的 两 个 
例外 是 在 每 个 位 置 包含 一 个 或 两 个 古迹 的 概率 曲线 急剧 下 降 (因为 有 
很 多 位 置 不 明 的 古迹 ) ， 而 “位 置 -位 置 ” 单 元 的 “长 尾 ” 分 布 的 “尾巴 ” 则 
不 断 上 升 (由 于 人 造物 现象 引起 ) 。 








最 后 一 点 ， 我 们 可 以 观察 到 所 有 的 曲线 都 是 包含 所 有 市 点 类 型 的 
一 部 分 节点 ， 这 是 所 有 以 单个 连接 类 型 组 成 的 单个 网 络 的 内 在 特征 。 
Le 


接 到 古迹 ， 而 少 于 40% 的 是 连接 到 文献 。 反 之 ，CENSUS 项 目的 出 版 
合作 伙伴 在 1994 年 扫描 的 共 24000 张 图 片 中 ， 我 们 可 以 确定 至 少 有 45% 
的 图 片 在 2005 年 还 没有 添加 到 数据 库 中 。 


本 章 介 绍 的 可 视 化 可 以 作为 各 种 活动 的 起 点 。 除 了 资助 人 和 项 目 
负责 人 所 做 的 具体 项 目 目标 的 评估 ， 进 一 步 的 研究 领域 包括 识别 有 趣 
的 研究 课题 ， 和 矩阵 中 的 每 个 单元 都 可 以 进行 广泛 研究 ， 正 如 我 的 博士 
论文 主要 研究 古迹 文献 和 可 视 化 文献 引用 ( (Shich 2009) 。 很 多 单元 
都 展示 出 有 趣 的 交互 ， 可 以 结合 在 这 种 研究 中 。 举 个 例子 ， 为 了 对 在 
时 间 和 空间 上 涉及 很 多 事件 的 物体 和 人 物 建 立 轨 迹 ( (Gnziélez、 
Hidalgo Barabási 2008) ， 或 者 为 了 人 研究 网 络 交 互 效果 ( (Licht 和 
D’Souza 2009) 。 最 后 ， 可 以 使 用 很 多 等 价 可 视 化 来 比较 已 经 使 用 了 
相似 的 数据 模型 的 整个 数据 库 ， 如 Winckelmann 语 料 库 和 CENSUS 数 据 
库 ， 或 者 可 以 映射 到 相同 标准 如 CIDOC CRM 的 数据 库 。 





此 外 ， 如 采 不 按照 本 章 所 述 的 方法 对 数据 库 进 行 分 割 ， 在 类 似 的 
可 视 化 中 结合 不 同 的 网 络 也 是 很 有 趣 的 。 在 可 能 的 网 络 多 元 世界 中 也 
可 以 很 容易 找到 这 些 结合 ( 举 个 例子 ， 引 用 、 多 名 作者 共有 著作 权 、 
社会 科学 中 的 图 像 标 记 数 据 库 或 生物 学 中 的 基因 转 系 、 蛋 日 质 相互 作 
用 和 基因 疾病 数据 库 ) 。 





























通过 对 文献 、 古 迹 和 文献 目 孙 树 进 行 折 县 ， 粗 粒度 显示 也 可 以 通 
过 很 多 其 他 方式 实现 ; 举 个 例子 ， 基 于 特定 子 树 折 县 或 者 是 更 复杂 的 
方法 如 “区 块 建 模 ”( (bockmodelling)( (Wssermann 和 Faust 1999) 或 者 


社区 发 现 ( (Lncichinetti 和 Fortunato 2009; Ahn、Bagrow 和 Lehmann 
2009) ， 切 实 解决 如 何 真正 定义 网 络 中 的 节点 和 连接 ( (Btts 2009) 


最 后 ， 本 章 给 出 的 矩阵 和 市 点 -连接 图 组 合 可 以 进一步 扩展 ， 比 如 
在 数据 模型 的 相关 单元 中 替换 节点 -连接 /矩阵 组 合 ( (Hnry、Fekete 和 
McGuffin 2007) 或 者 可 扩展 的 图 像 矩 阵 ( (Shich、Lehmann 和 Park 
2008) 


结束 语 


正如 本 章 所 述 ， 丰 富 完 善后 的 数据 模型 矩阵 对 于 数据 库 项 目的 评 
佑 定 非常 有 用 的 ， 它 揭秘 了 很 多 非 直观 的 数据 属性 ， 这 些 属 性 难以 倘 
单 地 通过 数据 库 或 者 音 用 的 质量 指标 来 捕捉 。 由 于 数据 以 关联 数据 
( (Lnked Data)、RDF 图 和 关系 表 导 出 的 形式 变 得 更 易于 访问 ， 项 目次 
助人 或 负责 人 可 以 应 用 以 上 提出 的 方法 ， 以 几乎 目 动 化 的 过 程 在 很 短 
的 时 间 内 实现 。 








本 章 所 示 的 可 视 化 是 第 一 个 呈现 了 整个 CENSUS 数 据 库 的 大 图 ， 
我 们 可 以 从 中 看 到 最 初 的 数据 模型 定义 和 在 收集 到 的 数据 中 的 新 兴 的 
复杂 的 数据 结构 。 通 过 查看 这 些 可 视 化 ， 我 们 发 现 项 目 描述 中 给 出 的 
很 多 数字 都 是 不 完整 甚至 是 误导 人 的 。 有 些 新 的 数据 可 能 比 最 初 给 出 
的 值 小 ， 我 们 从 分 析 中 汲取 的 一 点 教训 是 : 有 时 少 即 是 多 一 一 多 了 就 
不 同 了 ( (Aderson 1972) ° 
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B15% 1994F: 基于 《纽约 时 报 》 上 的 文章 搜 
索 API 的 数据 探索 JerThorp 


2009 年 2 月 份 ，《 纽 约 时 报 》 宣 布 将 它 28 年 的 数据 向 公众 开放 一 一 
新 闻 故 事 、 电 影评 论 、 让 告 和 政治 统计 ， 全 部 都 可 以 免费 访问 。 面 对 
如 此 庞大 的 信息 量 ， 即 约 260 万 篇 文章 ， 我 们 需要 面临 着 3 个 重要 问 
题 。 如 何 获 取 我 们 需要 的 数据 ? 如 何 处 理 这 些 数据 ? 以 及 可 能 是 最 重 
要 的 ， 为 什么 要 做 这 件 事 ? 本 章 将 尝试 回答 以 上 这 些 问 题 。 我 们 将 了 
解 如 何 使 用 《纽约 时 报 》 文 章 搜索 API(NYTimes Article Search API) 
( (htp: //developer.nytimes.com/docs/article_search_api) 来 访问 信息 ， 查 
看 一 些 实际 的 可 视 化 例子 ， 探 讨 在 数据 开放 时 代 那 扇面 向 艺术 家 、 企 
业 家 、 设 计 师 和 社会 科学 家 的 探索 之 门 是 如 何 开启 的 。 








获取 数据 .文章 搜索 API 


“API* 是 众多 3 个 字母 缩写 词 之 一 ，3 字 母 缩写 词 只 包含 3 个 字母 ， 
直接 包含 的 含义 很 少 ， 即 使 知道 API 的 全 称 : 应 用 程序 编程 接口 
( (aplication programming interface)， 仍 然 难以 确定 这 个 缩写 的 含义 。 
这 个 缩写 相当 通用 ， 在 软件 开发 领域 中 被 广泛 应 用 ， 通 前 是 为 了 使 一 
个 软件 和 另 一 个 软件 可 以 通信 。 如 有 果 我 们 把 数据 库 想 象 成 存储 信息 的 
实体 仓库 ， 那 么 API 殉 是 运输 和 接收 部 门 ， 而 且 对 外 开放 。 











尽 之 ， 通 过 API 进 行 交互 非常 人 简单。 向 API 发 送 一 条 请 求 (该 请 求 
可 以 非常 简单 ， 也 可 以 非常 复杂 ) ， 该 API 会 给 我 们 发 回 一 串 格式 化 
的 信息 。 不 同 API 之 间 通 信 的 语法 以 及 辐 我 们 发 回 的 响应 信息 的 格式 
有 很 大 区 别 。 有 些 API 的 功能 非常 少 ， 而 有 些 API 功 能 则 很 强大 ， 包 含 
很 多 有 用 的 功能 。 笠 运 的 是 ， 在 我 们 看 来 ，《 纽 约 时 报 》 的 文章 搜索 
API 是 功能 最 强大 、 结 构 最 良好 的 API 之 一 。 


那么 ， 我 们 能 够 同 API 发 送 什么 请 求 呢 ? 通过 一 些 倘 单 的 请 求 ， 
API 可 以 回答 以 下 任何 一 个 问题 ， 而 且 数量 上 几乎 没有 限制 : 





.1982 年 发 表 了 多 少 文章 ? 


天 于 欺诈 的 文章 中 ， 哪 个 企业 组 织 被 所 及 最 多 ? 








-在 1991 年 关于 时 尚 的 文章 中 ,“ 超 色 ”( (hpercoloD 被 提 及 多 少 


次 ? 


我 们 先 来 尝试 一 个 简单 的 问题 : 在 1994 年 ， 有 多 少 文章 提 到 
O.J.Simpson!!!? 可 以 通过 几 种 不 同 的 方法 向 API 发 送 这 个 问题 ， 它 们 
都 需要 发 送 一 个 指向 特定 URL 的 HTTP 请 求 ， 在 该 请 求 中 可 以 加 上 一 些 
可 选 的 参数 。 以 下 是 最 简单 的 请 求 : 


http://api.nytimes.com/svc/search/v1/article?query=O.J.+Simpson 


该 请 求 会 给 我 们 返回 数据 库 中 包含 字符 串 “0.J.Simpson” 的 所 有 的 
文章 〈 数 据 库 中 存储 了 从 1981 年 至 今 的 所 有 文章 ) 。 为 了 限制 为 1994 
年 的 文章 ， 我 们 给 该 查询 增加 了 一 些 额 外 参数 : 


http://api.nytimes.com/svc/search/v1/article?query=O.J.+Simpson& 


begin_date=19940101 &end_date=19950101 


最 后 ， 该 API 会 记录 访问 者 的 信息 并 确保 没有 用 户 超过 发 布 的 最 
大 限制 值 。 因 此 ， 我 们 每 次 调用 API 时 ， 都 必须 在 查询 请 求 中 加 上 一 
串 API 密 钥 ， 该 密 钥 是 《纽约 时 报 》 系 统 为 每 个 用 户 生成 的 一 串 唯 一 
AISA EB IP! o 


http://api.nytimes.com/svc/search/v1/article?query=O.J.+Simpson& 
begin_date=19940101 & end_date=19950101 & api- 


key=1af8 1 d#+HHEHH HHA. HH: EHH 


如 果 你 继续 往 下 操作 ， 把 该 请 求 精 贴 到 浏览 器 地 址 栏 (用 你 目 己 
的 API 密 钥 取代 # 内 容 ) ， 你 将 会 得 到 一 些 请 求 结 果 ， 查 看 数据 源 ， 得 
到 API 返 回 的 真正 数据 。 返 回 给 我 们 的 数据 是 以 JSON 格 式 封 竣 ， 我 们 
将 在 本 章 的 后 面 详细 介绍 该 格式 。 在 返回 的 数据 块 的 下 方 ， 我 们 能 够 
找到 以 上 问题 的 答案 : 2218。 





我 们 将 把 这 些 请 求 封 朔 成 一 个 多 功能 的 包 ， 这 些 请 求 是 本 章 的 基 
础 。 对 文章 搜索 API 的 任何 请 求 都 旦 通过 这 种 通用 的 方式 进行 构建 





的 ， 如 图 15-1 所 示 : 


基础 URL+ 查 询 + 维 上 度 + 额外 参数 +API 密 角 





15-1: 《纽约 时 报 》 文 章 搜索 API 请 求 总 是 通过 几 个 相同 的 关键 项 
来 构建 的 





其 中 有 些 项 (查询 ，API 密 钥 ) 是 必需 的 ， 而 其 他 一 些 项 则 是 可 
选 的 (额外 参数 ， 维 度 ) 。 然 而 ， 基 础 结构 一 直 没 有 改变 ， 基 本 方法 
也 一 样 保持 不 变 : 向 API 发 送 一 个 请 求 ， 得 到 一 个 请 求 结果 。 但 是 ， 
我 们 真正 希望 实现 的 是 可 以 向 API 发 送 很 多 请 求 ， 得 到 很 多 请 求 结 
采 。 为 了 实现 这 一 点 ， 我 们 需要 一 个 更 好 的 系统 ， 而 不 是 简单 地 在 
Web 浏 览 器 地 址 栏 中 执行 拷贝 和 粘贴 。 

[1] O.J Simpson 是 橄榄 球 兼 电影 明星 ， 因 谋杀 妻子 案 审 判 ， 在 美国 引起 
彼 动 。 后 面 会 介绍 更 多 。 
[2] 在 nytimes.com 上 登录 你 的 帐户， 访问 


http: /developernytimes.com， 点 击 “Getting Started” 标 题 下 的 “Request 
an API key” ° 


管理 数据 : 使 用 Processing 编 程 语言 


在 20 世 纪 90 年 代 ， 美 国 艺 术 家 Mark Lombardi 创 作 了 一 系列 非常 复 
杂 的 绘画 作品 〈 他 称 之 为 “叙事 式 结构 ”( (nrrative structures)) ， 这 些 作 
品 揭露 了 涉及 政治 和 金融 诈 矣 的 人 们 和 企业 组 织 之 间 的 关系 。 
Lombardi 认 真 地 梳理 报纸 文章 和 杂志 ， 手 工 记 杂 他 的 发 现 。 他 既 没 有 
一 个 可 以 发 送 请 求 的 API， 也 没有 任何 数据 库 或 软件 来 存储 其 结果 。 相 
有 反 地 ，Lombardi 积 办 了 14000 多 张 守 引 卡 片 ， 把 所 有 的 问题 和 答案 都 记 
杂 到 这 些 卡 片上 ， 并 根据 这 些 卡 厂 描 绘 其 历史 图 表 ( 见 图 10-1) 。 


除非 你 磁 巧 有 几 千 张 索 引 卡 片 和 几 周 的 业余 时 间 来 做 这 件 事 ， 否 
则 我 们 就 需要 找 出 一 种 更 快捷 的 方式 来 管理 所 有 的 问题 和 答案 。 借 助 
一 台 计 算 机 ， 解 决 这 个 问题 的 方式 会 有 很 多 种 ， 有 很 多 不 同 的 软件 工 
具 和 编程 语言 都 可 以 实现 该 任务 。 我 使 用 了 一 种 称 为 Processing 的 编程 
语言 来 处 理 数 据 ， 在 本 章 的 例子 中 也 将 使 用 该 语言 。Processing 可 以免 
费 下 载 ， 而 且 使 用 相对 简单。 本 章 将 假定 你 已 经 下 载 并 安装 了 
Processing (如 果 你 需要 帮助 ， 请 访问 Processing 的 官方 网 站 : 


http: //www.processing.org) ° 





在 最 后 一 六 ， 我 将 演示 如 何 使 用 《纽约 时 报 》 的 文章 搜索 API 发 送 
请 求 并 得 到 JSON 格 式 的 啊 应 结 采 。 我 们 将 使 用 Processing 来 管理 请 求 ， 
解析 并 存储 响应 结果 ， 然 后 把 结果 显示 在 屏幕 上 。 这 个 过 程 最 复杂 的 





部 分 是 处 理 返回 的 JSON 格 式 的 请 求 结果 。 我 将 使 用 以 前 写 过 的 一 些 简 
单 的 Processing 代 码 ， 而 不 是 长 篇 大 论 地 告诉 你 应 该 如 何 构建 目 己 的 引 
擎 ， 这 样 可 以 使 这 个 说 明 过 程 变 得 更 简单 。 我 把 用 于 处 理 文章 搜索 API 
的 很 多 关键 函数 功能 封 确 成 了 一 个 库 ， 你 可 以 从 


http: //www.blprnt.com/libraries/nytimes F #X ° 


安装 Processing 库 很 简单 ， 只 需要 简单 地 把 解压 后 的 文件 夹 拖 到 绘 
图 本 的 库 所 在 的 目录 (同样 ， 如 果 需 要 帮助 ， 请 访问 
http: //www.processing.org)。 如 果 你 想 了 解 这 些 库 的 内 部 实现 ， 该 项 目 
是 开源 的 ， 你 只 需要 用 Google 搜 索 就 能 够 得 到 需要 的 链接 。 但 是 ， 目 
前 你 需要 了 解 的 是 你 可 以 利用 库 中 的 函数 功能 来 做 一 些 有 意义 的 事 
情 。 首 先 ， 我 们 一 起 来 看 看 如 何 使 用 这 个 库 同 API 发 送 一 个 前 面 提 到 的 
关于 0.J. 问 题 的 请 求 。 





首先 ， 我 们 通过 导航 条 中 “绘图 导入 ( (Setch Import)” Ay Be 
导入 “《 纽 约 时 报 》 的 文章 搜索 ( (NTArticleSearch) 库 ”。 然后 ， 设 置 画 
布 大 小 ， 并 把 背景 设置 成 鲜亮 的 日 色 : 
import blprnt.nytimes.*; 


size (800, 350) : 
background (255) ; 





接着 ， 我 们 开始 通过 API 密 钥 对 库 进 行 初 始 化 : 


TimesEngine.init(this, "YOUR-API-KEY-GOES-HERE") ; 


下 一 步 ， 我 们 将 创建 TimesArticleSearch 对 象 来 管理 请 求 (查询 ) 
和 结果 (HE) : 


TimesArticleSearch mySearch=new TimesArticleSearch () ; 


这 个 简单 的 对 象 可 以 帮助 我 们 发 出 任何 需要 使 用 文章 搜索 API 的 请 
求 。 我 们 先 来 发 送 一 个 类 似 于 之 前 的 关于 1994 年 的 问题 的 查询 ， 这 次 
把 结果 限制 在 1994 年 和 1995 年 : 


mySearch.addQueries ("O.J.+Simpson") ; 
mySearch.addExtra ("begin_date", "19940101") ; 
mySearch.addExtra ("end_date", "19960101") ; 
TimesArticleSearchResult r=mySearch.doSearch () ; 
println ("RESULTS ABOUT O.J.: "+r.total); 





这 看 起 来 似乎 比 我 们 的 第 一 个 例子 稍 复 杂 些 ， 在 第 一 个 例子 中 ， 
我 们 发 送 的 只 是 一 个 http 请 求 ， 但 是 在 这 个 例子 中 ， 我 们 不 需要 处 理 
JSON 格 式 的 数据 ， 而 且 有 充分 的 自由 来 定制 搜索 。 文 章 搜 索 API 为 我 
们 提供 很 多 对 搜索 请 求 进 行 结构 化 的 选项 ， 允 许 我 们 实现 非常 具体 或 
者 非常 通用 的 请 求 。 








先 考 虑 一 下 搜索 。 我 们 向 API 发 送 请 求 ， 查 找 在 1994 年 或 1995 年 发 
表 的 、 包 含 字符 串 “O.J.Simpson” 的 所 有 文章 。 那 么 ， 对 于 包含 Orenthal 
James Simpson 的 文 草 是 否 会 被 包含 在 结果 之 中 呢 ? 或 者 只 包含 0.J. 呢 ? 
或 者 包含 “The Juice” 的 呢 ? 文 章 搜索 API 的 一 个 强大 之 处 在 于 它 和 《 纽 
约 时 报 》 的 编辑 机 构 关 联 在 一 起 。 当 《纽约 时 报 》 发 表 了 一 篇 文章 








该 文章 会 通过 一 组 编辑 信息 来 索引 。 该 信息 是 由 人 们 手工 添加 和 规范 
化 的 ，API 可 以 访问 该 信息 并 使 搜索 更 有 效 。 对 于 该 例子 ， 我 们 不 需要 
查看 短语 “O.J.Simpson”， 而 是 可 以 通过 合适 的 维度 标签 来 找到 


和 “O.J.Simpson” 匹 配 的 结果 ( 即 “SIMPSON,O J”) 。 





编辑 人 员 会 把 该 维度 添加 到 任何 提 到 或 引用 过 0.J. 的 文章 中 ， 不 论 
文章 正文 使 用 了 什么 名 字 。 因 此 ， 搜 索 如 下 : 


import blprnt.nytimes.* ; 

size (800, 350) ; 

background (255) ; 

TimesEngine.init(this, "YOUR-API-KEY-GOES-HERE") ; 

TimesArticleSearch mySearch=new TimesArticleSearch ("YOUR-API-KEY-GOES- 
HERE") ; 

mySearch.addFacetQueries ("per facet", "SIMPSON,O J") ; 

mySearch.addExtra ("begin_date", "19940101") ; 

mySearch.addExtra ("end_date", "19960101") ; 

TimesArticleSearchResult r=mySearch.doSearch () ; 

println ("RESULTS ABOUT O.J.: "+r.total); 


(EH EERE — RF Sh EF Ug BY A EE De HAT 
准 名 字 是 什么 。 访 问 该 信息 的 一 个 简 蛙 的 方法 是 使 用 《纽约 时 报 》 的 
API 请 求 工 具 ， 在 http: //prototype.nytimes.com/gst/apitool/index.html FJ 
以 获取 。 该 工具 可 以 帮助 你 测试 所 有 的 搜索 查询 并 查看 相关 结 采 ， 这 
些 都 不 需要 编写 任何 党 琐 的 代码 或 者 获取 API 密 铀 。 为 了 获得 关 
于 “O.J.” 的 合适 的 维度 ， 我 们 可 以 在 搜索 查询 ( (Sarch Query) 域 中 输 
入 “O.J Simpson”， 在 维度 查询 ( (Feet Query) 域 中 输入 “per_facet”， 结 果 
如 图 15-2 所 示 。 











当然 ， 在 1994~1995 年 发 生 的 事情 远 远 不 止 “白色 吉普 车 和 带 有 血 
迹 的 手套 ”一 案 叫 。 使 用 API 工 具 ， 我 们 可 以 收集 在 那个 时 期 的 一 些 其 
他 事件 的 准确 信息 ， 比 如 南非 种 族 隔离 政策 的 结束 ( (go_facet=SOUTH 
AFRICA)， 以 及 卢旺达 的 种 族 屠杀 ( (go_facet=RWANDA)。 我 们 可 以 
为 每 个 搜索 构建 新 的 < 《纽约 时 报 》 文 草 搜索 *( (TmesArticleSearch) 对 
R, 或 者 每 次 清空 维度 查询 ， 重 新 使 用 相同 的 对 象 。 第 二 种 方式 更 合 
理 ， 因 此 我 们 可 以 尝试 一 下 。 





import blprnt.nytimes.*; 

size (800, 350) ; 

background (255) ; 

TimesEngine.init(this, "YOUR-API-KEY-GOES-HERE") ; 


TimesArticleSearch mySearch=new TimesArticleSearch () ; 
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Al 15-2: API 请 求 工具 可 以 用 于 查找 关于 人 物 、 话 题 和 位 置 等 《纽约 
时 报 》 的 官方 维度 





//OJ search 

mySearch.addFacetQuery ("per facet", "SIMPSON,O J") ; 
mySearch.addExtra ("begin_date", "19940101") ; 
mySearch.addExtra ("end_date", "19960101") ; 
TimesArticleSearchResult rl=mySearch.doSearch () ; 
printIn ("OJ: "+r1.total 

//South Africa search 

mySearch.clearFacetQueries () ; 

mySearch.addFacetQuery ("geo_facet", "SOUTH AFRICA") ; 
TimesArticleSearchResult r2=mySearch.doSearch () ; 
printIn ("South Africa: "+r2.total); 


//Rwanda search 

mySearch.clearFacetQueries () ; 
mySearch.addFacetQuery ("geo_facet", "RWANDA") ; 
TimesArticleSearchResult r3=mySearch.doSearch () ; 
println ("Rwanda: "+r3.total); 


这 种 方式 可 以 得 到 3 个 “ 《纽约 时 报 》 文 章 搜索 结果 
( (TmesArticleSearchResult) 对 象 ” 这 些 对 象 包含 每 个 结果 的 文革 总 数 
(我 们 后 面 可 以 看 到 这 些 对 象 也 可 以 保存 其 他 有 用 的 信息 ) 。 看 起 来 
现在 正 适合 对 这 些 数 据 执行 一 些 (非常 ) 简单 的 可 视 化 。 条 形 图 ， 或 
者 其 他 ? 如 图 15-3 所 示 。 








15-3: 对 O.J，( 红 色 显 示 ) 、 南 非 (绿色 显示 ) 和 卢旺达 HEE 
示 ) 所 提 及 次 数 的 简单 的 图 形 比较 ( 见 彩 图 14-8) 


//O.J.bar 

fill (255, 0, 0) ; 

rect (0, 50, rl.total, 50) ; 
//South Africa bar 

fill (0, 255, 0) ; 

rect (0, 150, r2.total, 50) ; 
//Rwanda bar 

fill (0, 0, 255) ; 

rect (0, 250, r3.total, 50) ; 





我 承认 图 15-3 中 的 可 视 化 永远 都 算 不 上 是 有 趣 的 。 然 而 ， 它 宫 括 了 
在 海量 的 、 信 息 丰 富 的 《纽约 时 报 》 文 章 数据 库 中 探索 时 所 需 的 几乎 
所 有 概念 。 写 还 引出 了 一 个 非 芝 非常 简单 的 三 步 模式 ， 即 使 是 在 制作 
最 为 复杂 的 数据 可 视 化 时 ， 该 模式 依然 有 效 。 








[1] jk E FAAI ee LER AR 电影 明星 OJ Simpson P GRAS BUSEY 
RIF, ARFER R, SHS aaa o WIAA SARE, 
可 以 访问 http: //en.wikipedia.org/wiki/O._J._Simpson_murder_case ° 
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我 们 先 停 下 来 考虑 一 下 在 可 视 化 项 目 中 的 最 基础 的 处 理 过 程 : 





1. 获 取 数 据 。 


2. 把 数据 转换 成 有 意义 的 结构 。 


3. 对 数据 进行 可 视 化 。 





通常 ， 这 个 简单 的 过 程 在 项 目 中 会 重复 两 次 : 一 次 是 在 发 现 过 

， 男 一 次 是 在 生产 过 程 。 在 人 研究 阶段 ， 挑 战 是 挖 抉 到 一 组 数据 ， 发 

现 一 些 有 意义 或 有 趣 的 方面 ,“ 获 取 数 据 ” 阶 段 可 能 会 重复 很 多 次 ， 而 

可 视 化 阶段 可 能 会 尽 可 能 地 简单。 相反 地 ， 生 产 周 期 通常 是 在 识别 完 

数据 后 出 现 的 。 这 意味 着 我 们 花 了 很 少 的 时 间 来 获取 数据 (因为 我 们 
经 有 这 些 数据 ， 而 在 可 视 化 阶段 化 了 更 多 的 时 间 。 


a 





i 








第 二 步 古 研究 和 生产 周期 中 都 存在 的 ， 把 数据 转化 成 有 意义 的 结 
构 。 这 些 是 什么 样 的 结构 ? 是 什么 使 得 这 些 结构 有 意义 ? 对 我 而 言 ， 
这 个 过 程 通常 意味 着 把 数据 分 片 封装 成 对 象 《相关 信息 能 够 存储 在 一 
起 的 编程 结构 ) 。 它 通常 还 涉及 把 这 些 对 象 填充 成 一 些 集合 ， 即 一 个 
分 组 列表 使 得 易于 对 数据 进行 排序 和 检索 。 











在 我 们 的 OJ. 例 子 中 ， 这 个 过 程 几乎 都 是 由 《纽约 时 报 》 的 
Processing 库 处 理 的 ， 我 们 在 刚 开 始 可 视 化 时 就 导入 了 这 些 库 。 我 们 发 
现 每 次 执行 搜索 时 都 会 创建 对 象 。 我 们 创建 了 一 个 对 象 
TimesArticleSearch 来 对 所 有 的 API 请 求 进行 管理 : 


TimesArticleSearch mySearch=new TimesArticleSearch () ; 


以 及 一 个 TimesArticleSearchResult 对 象 来 存储 该 API 返 回 的 所 有 请 
求 结果 : 


TimesArticleSearchResult rl=mySearch.doSearch () ; 


这 些 普通 的 TimesArticleSearchResult(TASRJ) 对 象 存储 了 每 个 搜索 
结果 的 相关 信息 。 到 目前 为 止 ， 我 们 所 做 的 就 是 获取 接收 到 的 结果 的 
总 数 ， 该 总 数 指 的 是 在 每 个 结果 对 象 中 以 整数 形式 存储 的 一 个 属性 : 








println ("RESULTS ABOUT O.J.: "+r.total); 


但 是 ，TASR 对 象 存储 的 信息 远 远 不 止 于 这 些 。 实 际 上 ， 对 所 有 在 
1994/1995 年 由 《纽约 时 报 》 发 表 的 标 有 O.J. 维 度 的 文章 ， 我 们 可 以 获 
取 文 章 的 标题 、 作 者 、URL、 摘 要 等 更 多 信息 一 一 这 些 信息 全 部 都 存 
储 在 TASR 对 象 中 。 每 块 数据 都 是 以 TimesArticleObjects 的 形式 存储 在 
每 个 TASR 对 象 中 ， 很 整齐 地 排列 在 文章 数组 中 。 默 认 情 况 下 ，TASR 











保存 前 10 条 搜索 结 末 。 如 采 我 们 想 要 获取 列表 中 人 第 一 篇 文章 的 作者 ， 
我 们 可 以 这 么 做 : 


println ("FIRST HEADLINE: "+y,articles[0].title); 


或 者 ， 为 了 获取 第 10 篇 文章 的 Web URL: 


println ("100th ARTICLE URL: "+y,articles[9].url); 





或 者 十 获取 每 篇 文章 的 标题 列表 : 


for(int i=0; i<r.articles.length; i++) { 
oT ("AUTHOR#"+i+": "+r.articles[i].author); 

在 这 里 ， 我 们 开始 看 到 《纽约 时 报 》 文 章 搜索 API 带 给 我 们 的 数 
据 的 冰山 一 角 。 到 目前 为 目 ， 我 们 完成 了 3 个 相当 基础 简陋 的 搜索 ， 结 
果 是 约 2000 条 通过 一 些 TASR 对 象 进行 封装 的 文章 搜索 结果 。 我 们 已 经 
知道 了 如 何 访问 (至 少 部 分 的 ) 搜索 结果 ， 我 们 现在 来 查看 一 些 使 搜 
索 和 结果 更 智能 的 方式 。 





维度 搜索 


在 前 面 的 例子 中 ， 已 经 介绍 了 我 们 是 如 何 通 过 维度 ( (fcets) 搜 索 来 
确保 得 到 我 们 需要 的 结果 的 。 但 是 尚未 提 到 的 是 在 我 们 的 搜索 结果 中 
也 可 以 包含 维度 。 通 过 结果 中 的 维度 信息 ， 我 们 可 以 从 各 个 搜索 中 找 
到 更 多 的 信息 ， 而 且 可 以 发 现在 文章 数据 库 内 不 同 维度 (人物 、 国 
家 、 主 题 ) 之 间 的 关系 。 








让 我 们 以 一 个 简单 但 非常 有 用 的 例子 来 说 明 我 们 如 何 使 用 维度 结 
果 来 优化 搜索 。 在 前 一 个 例子 中 我 们 发 现在 1994 年 和 1995 年 ， 有 488 篇 
结果 文章 的 维度 标签 是 “Rwanda geo_facet” (卢旺达 地 理 维度 ) 。 如 果 
我 们 进一步 分 解 ， 找 出 在 1994 年 每 个 月 发 表 了 多 少 篇 文章 ?” 可 以 使 用 
我 们 之 前 证 实 的 方法 ， 做 12 次 搜索 : 每 个 月 搜索 一 次 。 每 次 搜索 ， 我 
们 可 以 使 用 不 同 的 额外 参数 “开始 日 期 *( (bgin_date) 和 “结束 日 
期 *( (ed_date) 来 确保 每 个 月 份 返回 相应 的 结果 ， 但 是 这 看 起 来 需要 很 
大 的 工作 量 ， 不 是 吗 ? 











可 能 你 已 经 想到 了 ， 这 种 搜索 的 一 种 更 好 的 方法 时 使 用 维度 结 
果 。 实 际 上 ， 只 需要 执行 一 次 搜索 ， 束 能 得 到 我 们 想 要 的 结果。 搜索 
的 方法 和 之 前 的 例子 相同 : 


TimesArticleSearch mySearch=new TimesArticleSearch () ; 
mySearch.addFacetQuery ("geo_facet", "RWANDA") ; 


但 是 ， 不 是 使 用 额外 参数 “开始 /结束 日 期 ”来 约束 时 间 为 1994 年 ， 
这 次 我 们 使 用 的 是 “发 表 年 份 " (pblication_year) 这 个 维度 : 


mySearch.addFacetQuery ("publication_year", "1994") ; 


以 下 介绍 一 些 较 神奇 的 。 除 了 返回 通常 的 搜索 结果 〈 一 个 文章 列 
K) ， 我 们 将 要 求 API 返 回 一 些 维度 ， 比 如 在 这 个 例子 中 是 “发 表 年 份 
( ae ee 





mySearch.addFacets ("publication_month") ; 


当 我 们 运行 搜索 时 ， 维 度 结果 会 和 所 有 其 他 数据 一 起 封装 在 TASR 
WAH: 


TimesArticleSearchResult r=mySearch.doSearch () ; 


为 了 从 TASR 中 获取 publication_month 结 果 ， 我 们 需要 访问 感 兴趣 
的 特定 维度 的 TimesFacetObjects 数 组 ( (TSR 可 以 包含 任何 数量 维度 的 结 
果 ) : 


TimesFacetObject[]months=r.getFacetList ("publication_month") : 


现在 我 们 可 以 知道 在 1994 年 1 月 有 多 少 结果 : 





println ("January results: "+months[0].count); 


我 们 还 可 以 对 整 年 的 结果 进行 绘图 ( 见 图 15-4) : 


for(int i=0; i<12; i++) { 

fill(random (150, 255) , 0, 0) ; 
float w=width/12; 

rect(i*w,height,w, -months[i].count*3) ; 





图 15-4: 1994 年 《纽约 时 报 》 提 到 “卢旺达 ”的 每 月 频 度 


对 于 该 可 视 化 ， 我 们 实现 了 一 个 非常 简单 的 程序 来 发 现 一 年 内 所 
有 提 到 卢旺达 的 文章 。 但 是 这 个 小 小 的 可 视 化 实际 上 可 以 有 很 多 扩 
展 。 它 可 以 对 从 1981 年 至 今 任何 一 年 的 维度 项 的 描述 进行 可 视 化 。 虽 
然 我 很 愿意 详 述 这 个 过 程 ， 但 为 了 节省 时 间 和 纸张 ， 还 是 不 这 么 做 
了 。 你 可 以 在 http: /www.blprnt.comy/examplesmytimes 下 载 
NYTimesGraphMaker。 虽 然 这 种 探索 非常 有 用 ， 但 目前 我 们 还 只 是 局 
限于 在 文章 数据 库 中 的 离散 搜索 。 当 我 们 开始 使 用 API 来 探索 人 物 、 地 
点 和 主题 之 间 的 联系 时 ， 一 切 变 得 更 加 有 趣 。 


ER 


当 我 们 向 文章 搜索 API 发 送 任何 请 求 时 ， 可 以 要 求 API 返 回 在 已 经 
找到 的 包含 了 搜索 项 的 文章 中 包含 的 维度 的 一 个 列表 。 举 个 例子 ， 我 
们 可 以 发 现在 提 到 卢旺达 的 文章 中 还 包含 哪些 国家 ， 或 者 在 关于 0.J. 的 
文章 中 还 提 到 哪些 人 ， 或 者 哪些 主题 和 南非 的 种 族 隔 离 制度 结局 最 相 
关 。 我 们 还 可 以 做 出 更 通用 的 请 求 。 完 全 忽略 一 个 搜索 项 但 是 指定 一 
个 时 间 段 ， 我 们 可 以 请 求 这 段 时 间 内 的 所 有 文章 。 如 果 我 们 想 要 这 些 
文章 的 维度 列表 ， 我 们 可 以 发 现 一 个 给 定 月 份 、 年 份 或 10 年 期 间 的 最 
好 的 维度 。 举 个 例子 ， 我 们 找 出 谁 是 1994 年 最 有 名 的 人 物 。 首 先 ， 我 
们 创建 了 一 个 搜索 对 象 ， 并 给 它 赋 一 个 空 查询 (使 用 加 号 + 来 蔡 代 空 
格 ) : 

















TimesArticleSearch mySearch=new TimesArticleSearch () ; 
mySearch.addQueries ("+") ; 


现在 ， 我 们 把 搜索 局 限于 1994 年 ， 在 搜索 对 象 的 结果 中 包含 维度 


per_facet: 


mySearch.addFacetQuery ("publication_year", "1994") ; 
mySearch.addFacets ("per facet") ; 


并 执行 如 下 查询 : 


TimesArticleSearchResult r=mySearch.doSearch () ; 


如 有 果 我 们 想 要 列 出 在 1994 年 中 提 到 的 最 著名 的 人 物 ， 我 们 可 以 这 
么 做 : 


TimesFacetObject[]stars=rgetFacetList ("per facet") ; 
for(int i=0; i<stars.length; i++) { 
println(stars[i].term); 


J; 

它 会 输出 非常 复杂 的 一 组 名 字 : 
CLINTON,BILL 
GIULIANI,RUDOLPH W 
CUOMO,MARIO M 
CLINTON,HILLARY RODHAM 
PATAKI,GEORGE E 
SIMPSON,O J 
SIMPSON,NICOLE BROWN 
KERRIGAN,NANCY 
GINGRICH,NEWT 

RABIN, YITZHAK 
CORTINES,RAMON C 
ARAFAT, YASIR 

RENO,JANET 
WHITMAN,CHRISTINE TODD 
BERLUSCONI,SILVIO 





这 个 列表 使 我 们 回想 起 一 些 关 于 《纽约 时 报 》 的 事情 : 它 同 时 还 
是 一 份 城市 报纸 、 国 内 报纸 和 国际 报纸 。 想 到 这 一 点 ， 当 我 们 发 现 当 
时 一 一 以 色 列 总 理 Yitzhak Rabin (他 在 1994 年 赢得 了 诺 贝 尔 奖 ) 被 提 及 
的 次 数 仅 比 纽约 市 教育 部 长 Ramon Cortines 多 一 些 一 就 不 会 感到 太 奇 
怪 了 。 虽 然 我 们 对 于 该 搜索 涉及 的 范围 之 广 可 能 很 满意 ， 我 们 可 能 还 
想 把 搜索 限制 在 某 个 “版 本 >。 我 们 可 以 使 用 维度 完成 。 这 次 我 们 将 通 
过 使 用 desk_facet 维 度 ， 选 择 只 在 Foreign Desk 上 发 表 的 文章 。 





mySearch.addQueries ("+") ; 

mySearch.addFacetQuery ("publication_year", "1994") ; 
mySearch.addFacetQuery ("desk_facet", "Foreign Desk") ; 
mySearch.addFacets ("per_facet") ; 
TimesArticleSearchResult r=mySearch.doSearch () ; 
TimesFacetObject[|stars=r.getFacetList ("per_facet") ; 
for(int i=0; i<stars.length; i++) { 

println(stars[i].term); 


J; 


个 查询 结果 生成 了 更 普通 的 一 


CLINTON,BILL 
ARISTIDE,JEAN-BERTRAND 
YELTSIN,BORIS N 

ARAFAT, YASIR 

RABIN, YITZHAK 
CHRISTOPHER,WARREN M 
BERLUSCONI,SILVIO 
MANDELA,NELSON 
GOLDSTEIN,BARUCH 
BOUTROS-GHALI]LBOUTROS 
CEDRAS,RAOUL 

CARTER, JIMMY 

POPE 

KIM IL SUNG 

MAJOR,JOHN 


这 个 列表 是 由 不 包括 关键 字 的 查询 或 维度 搜索 生成 的 ， 我 们 可 以 
选择 任何 一 个 或 者 所 有 这 些 名 字 ， 查 询 和 这 个 人 物 相关 的 最 有 名 的 人 
物 列表 。 这 里 ， 我 们 将 搜索 在 1994 年 和 Yitzhak Rabin 相 关 的 人 物 列表 : 





mySearch.addQueries ("+") ; 

mySearch.addFacetQuery ("per_facet", "RABIN, YITZHAK") ; 
mySearch.addFacetQuery ("publication_year", "1994") ; 
mySearch.addFacetQuery ("desk_facet", "Foreign Desk") ; 
mySearch.addFacets ("per_facet") ; 

TimesArticleSearchResult r=mySearch.doSearch () ; 
TimesFacetObject[]stars=r.getFacetList ("per_facet") ; 

for(int i=0; i< stars.length; i++) { 


println(stars[i].term); 


这 个 查询 的 输出 结果 列表 如 下 : 


ARAFAT,YASIR 

HUSSEIN I 

CLINTON,BILL 
PERES,SHIMON 
GOLDSTEIN,BARUCH 
ASSAD,HAFEZ AL- 
CHRISTOPHER,WARREN M 
CHRISTOPHER,WARREN 
WAXMAN,NAHSHON 
MUBARAK,HOSNI 
SHARON,ARIEL 
ABDELSHAFI,HAIDAR 
BHUTTO,BENAZIR 
BOUTROS-GHALI]LBOUTROS 


我 们 现在 开始 不 仅仅 是 简单 地 获取 我 们 搜索 的 结果 ， 而 且 还 包含 
了 这 些 结果 之 间 的 关联 。 如 果 要 使 用 第 一 个 列表 中 其 他 人 物 来 重复 
Rabin 的 过 程 ， 我 们 将 在 “超级 列表 ”中 包 全 225 个 人 物 。 不 过 ， 这 个 超级 
列表 是 包含 重复 项 的 ， 正 如 我 们 在 Rabin 列 表 中 所 看 到 的 ， 有 些 人 物 已 
经 在 我 们 的 第 一 个 列表 中 出 现 了 ( (Aafat、Clinton、Goldstein 和 
Boutros-Ghali) ° 





这 些 关 系 是 《纽约 时 报 》 提 供给 我 们 的 很 有 意思 的 数据 的 一 部 
分 。 通 过 检视 这 些 关 系 ， 我 们 可 以 发 现 人 物 、 地 点 、 主 题 之 间 明 显 的 
和 隐藏 的 天 系 。 如 图 15-5 所 示 ， 我 们 之 前 提 人 到 的 相同 列表 的 255 个 名 子 
以 网 络 图 表 方 式 说 明 ， 其 中 的 连 线 表示 提 到 的 人 物 之 间 的 关联 关系 。 


—CLINTON, BILL 


图 15-5: 说 明了 1994 年 新 闻 价 值 最 高 的 人 物 的 网 络 图 


该 图 像 把 海量 的 新 闻 信 息 浓 缩 成 一 张 图 形 。 对 于 典型 的 数据 检索 
系统 ， 这 种 图 形 需 要 花费 非常 多 的 时 间 才 能 生成 。 正 如 我 们 所 看 到 
的 ，《 纽 约 时 报 》 文 章 搜索 API 使 得 这 一 过 程 容易 了 很 多 。 


以 前 面 提 到 的 例子 为 例 ， 再 结合 人 物 和 机 构 组 织 会 使 它 变 得 稍微 
更 有 趣 一 些 。 该 API 只 包含 了 31 个 查询 ， 我 们 可 以 创建 一 张 图 片 ， 能 够 
显示 在 1994 年 的 新 闻 中 ， 成 百 上 于 的 人 物 、 企 业 和 国家 是 如 何 相互 关 
联 在 一 起 的 (该 例子 的 全 部 源 代码 可 以 在 
http: //www.blprnt.com/examples/nytimes 获 取 ) 。 其 结果 如 图 15-6 所 
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《纽约 时 报 》 的 API 为 所 有 领域 的 研究 人 员 提 供 了 丰富 的 信息 。 
其 数据 库 既 包含 历史 记录 也 包 侣 实时 报道 一 一 每 时 每 刻 都 在 创建 着 新 
的 内 容 。 当 然 ， 无论 《纽约 时 报 》 的 资料 库 信 息 多 么 丰富 ， 它 只 是 海 
量 的 开放 数据 中 很 小 的 一 部 分 一 一 每 周 跨越 式 不 断 增长 的 条 目 。 实 际 
上 ， 似 乎 已 经 解决 了 过 去 关于 开放 数据 的 首要 问题 ， 即 如 何 开 放 数 
据 ， 而 当下 面临 的 是 第 二 个 更 大 的 问题 是 ， 我 们 如 何 尽 可 能 地 利用 如 
此 大 量 的 信息 ? 

















我 认为 该 问题 的 部 分 解决 方法 在 于 促使 尽 可 能 多 的 人 们 访问 和 探 
索 可 用 的 数据 。 很 多 大 规模 的 开放 数据 的 目标 在 于 服务 于 已 有 的 数据 
人 员 : 软件 开发 人 员 、 计 算 机 科学 家 和 培训 过 的 信息 专业 人 员 。 大 部 
分 的 重点 在 于 使 数据 在 整个 企业 范围 内 可 用 。 然 而 ， 正 如 我 们 在 本 章 
所 见 的， 至 少 我 们 可 以 使 用 一 些 简单 的 工具 来 发 送 一 些 简单 的 请 求 ， 
以 获取 其 中 一 些 数据 。 这 个 技能 对 于 记者 、 社 会 学 家 、 历 史学 家 、 志 
术 学 家 和 科学 家 都 是 必需 的 ， 如 采 我 们 真 的 想 要 在 这 个 新 的 开放 数据 
领域 找到 有 真正 的 价值 的 发 现 。 





下 一 步 要 做 的 就 是 去 探索 。 深 入 文 草 搜索 数据 库 ， 问 一 些 你 目 己 
的 问题 ， 然 后 共 至 结 采 。 而 这 只 是 个 开始 。 可 以 使 用 你 在 本 章 学 到 的 
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是 否 曾 经 想 过 《纽约 时 报 》 网 站 的 读者 会 涵盖 什么 类 型 的 人 ? 
我 们 想 过 。 我们 还 在 想 他 们 倾 癌 于 在 一 天 之 中 的 什么 时 候 来 访问 网 
站 ， 使 用 什么 工具 访问 以 及 他 们 都 来 目 哪 里 ， 纽 约 、 巴 黎 或 博 伊西 ? 
从 他 们 是 谁 到 在 什么 时 候 、 以 什么 方式 以 及 为 什么 等 ， 所 有 这 些 问 题 
都 在 我 们 的 思考 范围 之 内 。 


本 章 将 要 介绍 的 这 个 可 视 化 项 目的 开发 源 于 在 《纽约 时 报 》 研 发 
试验 室 的 一 次 午餐 时 就 这 个 话题 开展 的 一 次 简单 讨论 。 正 如 你 将 看 到 
的 ， 从 非常 简单 的 基于 地 理 的 数据 集合 开始 ， 很 快 就 深入 到 海量 数据 
和 潜在 可 视 化 。 最 终 ， 我 们 创建 了 一 个 可 视 化 用 于 显示 每 天 《纽约 时 
报 》 网 站 nytimes.com 和 手机 移动 网 站 mobile.nytimes.com 在 世界 和 美国 
的 流量 。 我 们 这 个 可 视 化 探索 的 第 一 阶段 是 数据 收集 。《 纽 约 时 报 》 
网 站 每 个 月 的 页 面 浏 览 量 可 以 达到 几 亿 ， 其 中 独立 访问 量 在 1700 万 ~ 
2100 万 之 间 波 动 。 此 外 ， 还 有 很 多 网 关 可 以 访问 该 网 站 ， 包 括 移动 网 
站 、 时 报 阅读 器 航空 应 用 ( (Tmes Re ader AIR application) ` iPhone 
用 、API 等 很 多 方式 。 











具体 到 这 次 实验 ， 我 们 仅 选 择 了 标准 的 《纽约 时 报 》 网 站 
nytimes.com 和 其 移动 版 本 ( (mbile.nytimes.com)。 虽 然 为 了 简化 实验 而 
仅 选 择 了 上 述 两 种 资源， 但 是 即使 是 在 仅仅 使 用 这 两 个 数据 集 的 情况 
下 ， 需 要 篇 选 和 可 视 化 的 信息 仍然 是 巨 量 的 。 











我 们 的 探索 的 第 二 个 阶段 古 创建 一 个 基于 地 图 的 可 视 化 。 该 可 视 
化 显示 了 流量 模式 以 及 在 过 去 24 小 时 内 Web 站 点 和 移动 站 点 的 读者 数 
量 的 波动 。 





随 着 可 视 化 的 不 同 阶 段 的 逐步 完成 ， 我 们 不 仅 为 该 网 站 的 读者 数 
的 庞大 程度 而 深 感 吃惊 ， 同 时 也 对 读者 们 访问 该 网 站 的 时 间 特 征 感到 
惊奇 。 从 视频 http: Wbit.ly/mytdayinlife 中 你 可 以 看 出 ，nytimes.com 网 站 
在 晚上 是 相对 活路 的， 而 午夜 到 早上 5 点 其 用 户 访问 量 却 是 几乎 保持 不 
变 的 。 当 住 在 美国 东海 岸 的 《纽约 时 报 》 网 站 的 读者 陆续 醒 来 时 ， 流 
量 就 开始 暴涨 ， 可 视 化 开始 膨胀 ， 当 人 们 中 午 吃饭 休息 期 间 开 始 查 看 
每 天 的 消息 时 ， 也 会 出 现 类 似 的 流量 歇 涨 。 访 问 手机 网 站 
( (mbile.nytimes.com) 和 和 Web 站 点 ( (ntimes.com) 的 用 户 数 的 变动 特征 也 
是 很 有 意思 的 ; 如 后 面 的 可 视 化 所 示 ， 在 每 天 的 某 些 时 刻 ， 会 出 现 手 
机 网 站 的 访问 流量 比 标准 网 站 的 访问 流量 还 要 大 的 情况 ， 在 另外 一 些 
时 刻 也 有 与 此 相反 的 现象 存在 。 











随 着 数据 处 理 的 您 加 方便 ， 接 下 来 可 做 的 一 些 有 趣 的 处 理 方式 逐 
渐 明 表 了 起 来 。 只 要 时 间 人 允许 ， 我 们 布 望 每 天 甚至 古 在 流量 高 峰 时 











刻 ， 比 如 在 一 些 重大 新 闻 事件 发 生 的 时 刻 ， 能 够 目 动 泻 染 视 频 。 数 据 
收集 和 可 视 化 编码 方面 还 有 很 大 的 优化 空间 Che ML) 。 最 终 , 我 
们 讨论 了 如 何 对 更 为 具体 的 数据 进行 可 视 化 。 举 个 例子 ， 显 示 每 天 来 
和 目 特 定 设备 (如 iPhone) 的 流量 ， 或 者 抽取 出 位 于 加 州 的 用 户 ， 对 他 们 
阅读 的 新 闻 进 行 地 理 编码 ， 进 而 就 可 以 分 析 他 们 是 更 倾 同 于 查看 关于 
纽约 的 新 闻 还 是 倾向 于 查看 和 他 们 目 己 的 位 置 更 为 接近 的 新 闻 。 其 他 
的 可 能 方案 包括 在 重大 日 子 或 者 有 重大 新 闻 时 可 视 化 读者 的 阅读 模 

式 ， 从 而 了 解 新 闻 十 如 何在 Web、 社 交 网 络 和 特定 地 理 位 置 之 间 传播 
的 。 

















分 析 的 方法 古 无 穷 无 尽 的 。 我 们 相信 一 张 图 所 强 合 的 信息 量 与 上 
千 个 词 的 信息 量 相 仿 ， 但 是 一 个 数据 集 所 能 表达 的 却 可 以 达到 上 千 篇 
文章 的 效果 。 





收集 一 些 数据 








在 深入 介绍 可 视 化 本 号 的 内 容 之 前 ， 我 们 首先 对 隐藏 于 其 后 的 数 
据 进 行 一 次 讨论 。 为 了 对 nytimes.com 和 mobile.nytimes.com 的 24 小 时 的 
流量 进行 可 视 化 ， 我 们 需要 创建 一 个 可 以 从 《纽约 时 报 》 的 访问 日 志 
中 抽取 和 请 洗 数 据 的 程序 。 考 虑 到 我 们 想 要 创建 一 个 可 以 显示 在 一 天 
内 网 站 的 访问 次 数 的 可 视 化 并 且 是 一 个 基于 地 理 信息 进行 展示 的 可 视 
化 ， 我 们 需要 的 数据 包括 : 








在 24 小 时 内 ， 用 户 每 次 访问 Web 站 点 或 手机 网 站 的 时 间 惟 。 
:每 个 用 户 每 次 访问 时 所 处 位 置 的 经 度 和 纬度 。 


原始 的 访问 日 志 包 含 了 人 们 访问 Web 站 点 和 手机 站 点 的 很 多 有 用 
的 信息 《比如 每 个 访问 者 使 用 什么 浏览 器 ) ; 但 是， 其 中 有 很 多 信息 
对 我 们 而 言 是 没有 用 的 ， 因 此 需要 把 它们 从 日 志 信 息 中 过 滤 挥 。 此 
外 ,日 志 中 并 不 包括 每 个 用 户 每 次 访问 时 的 经 纬度 信息 ， 因 此 这 是 我 
们 在 日 志 “ 清 洗 ” 过 程 中 需要 添加 的 信息 。 











《纽约 时 报 》 的 Web 站 点 ， 是 一 个 流量 在 新 闻 类 网 站 中 排名 前 
的 站 点 (根据 Nielsen UHA) ， 其 月 独立 访问 读者 约 2000 万 。 这 意味 
着 ， 在 任何 一 天 Web 站 点 和 手机 站 点 上 都 有 几 百 万 次 的 页 面 浏览 (或 
AT) ; 这 是 我 们 准备 为 可 视 化 收集 的 基础 数据 。 


[1] : 参考 http: //blog.nielsen.com/nielsenwire/online_mobile/msnbc-and- 
cnn-top-global-news-sites-in-march/ ° 


BEATE 


处 理 原始 的 访问 日 志 的 第 一 步 是 “清洗 ”数据 。 对 于 处 理 任何 类 型 
的 Web 日 志 的 人 来 说 ， 这 通常 都 是 一 个 常见 的 步骤 。 对 于 可 视 化 以 及 
其 他 日 志 数据 的 分 析 ， 我 们 只 对 来 自 人 们 的 在 Web 页 面 和 手机 网 站 的 
点 击 数 感 兴趣 一 一 而 不 是 来 自 网 络 爬 虫 ( (sider)、 机 器 人 ( (bt) 或 抓 取 
程序 ( (sraper)。 为 了 过 滤 这 些 不 必要 的 数据 ， 我 们 实现 了 一 段 Java 代 
码 用 于 识别 出 非 人 工 的 访问 日 志 并 将 其 从 日 志 中 删除 。 每 天 Web 站 点 
原始 的 日 志 数 据 访问 量 大 约 有 500MB~700MB (压缩 格式 的 ) ， 手 机 
网 站 的 访问 量 约 80OMB~100MB (压缩 格式 的 ) 。 在 对 数据 进行 清洗 
过 程 中 ， 我 们 还 执行 了 IP 到 经 纬度 的 转换 ， 从 而 可 以 得 到 每 个 访问 用 
户 的 精确 位 置 。 原 始 访问 日 志 中 已 经 包含 了 用 户 的 IP 地 址 ， 然 后 我 们 
使 用 商业 数据 库 把 了 转换 成 地 理 位 置信 息 。 有 很 多 公司 提供 GeoIP (地 
理 位 置 IP) 数 据 库 ， 可 以 用 于 实现 该 转换 。 举 个 例子 ，MaxMind 公 司 提 
供 了 一 个 商业 数据 库 以 及 一 个 包含 了 各 种 客户 端 库 的 免费 版 本 ,借助 
这 些 客户 端 库 就 可 以 访问 该 公司 的 数据 库 了 。 

















一 旦 数据 被 清洗 完毕 并 准确 地 进行 了 地 理 位 置 编码 ， 只 需要 对 数 
据 再 做 最 后 一 轮 处 理 。 由 于 原始 的 访问 日 志 的 收集 、 存 储 和 请 理 方 
式 ， 新 清洗 完 的 数据 是 存放 在 多 个 文件 中 的 ， 需 要 对 它们 排序 之 后 合 


并 到 一 个 结果 文件 中 去 ， 该 文件 将 包 侣 可 视 化 所 需 的 数据 ， 即 一 天 访 
问 数 据 。 





每 天 “清洗 ”后 的 《纽约 时 报 》 网 站 nytimes.com 的 日 志 数 据 被 存储 
到 360 个 文件 中 ， 每 个 文件 大 小 约 30MB~40MB (压缩 格式 的 ) 。 由 
于 每 行 中 增加 了 一 些 额 外 的 字段 ， 如 GeoIP 信 息 , “清洗 ”后 的 日 志文 件 
要 大 于 原始 文件 。 对 于 手机 网 站 ， 因 为 数据 集 小 得 多 ， 清 洗 后 的 数据 
存储 在 一 个 文件 中 ， 大 约 有 70MB (压缩 格式 的 ) 。 我 们 每 天 需要 整 
理 当天 的 每 个 清洗 后 的 日 志文 件 ， 并 创建 按照 对 Web 站 点 和 手机 网 站 
的 访问 时 间 戳 以 及 访问 者 所 在 的 经 纬度 排序 的 单个 文件 ( (Wb 站 点 和 
手机 网 站 分 别 生成 一 个 文件 ) 。 排 序 结果 看 起 来 如 下 (每 行 一 条 数据 
ioe) : 














00: 00: 00, -18.006, -070.248 


00: 00: 00, -22.917, -047.080 


00: 00: 00, -33.983, 0151.100 


00: 00: 00, 014.567, 0121.033 


ee ee ee。 


Python ` Map/Reduce#l Hadoop 


数据 处 理 的 最 后 一 步 ， 我 们 用 Python 语言 创建 了 一 个 简单 的 
map/reduce 脚 本 ， 它 可 以 从 清洗 后 的 日 志文 件 中 过 滤 掉 所 有 不 需要 的 
数据 ， 并 输出 以 逗号 作为 分 隔 符 的 数据 ， 最 后 还 会 对 数据 进行 排序 。 
(在 研发 组 ， 我 们 通常 使 用 Python 来 收集 、 处 理 和 解析 数据 。 当 对 大 
的 数据 集 进行 可 视 化 时 ， 我 们 用 Python 来 处 理 所 有 繁重 的 数据 处 理 ， 
创建 在 可 视 化 应 用 程序 中 易于 读 取 和 解析 的 文件 。) 我 们 使 用 Amazon 
的 弹性 MapReduce Web 服 务 ， 它 允许 我 们 在 很 多 基于 Hadoop 的 EC2 的 
运行 实例 中 运行 Python 实现 的 map/reduce。Amazon 的 EC2 运 行 实例 
的 “配置 ?不 同 〈 低 配 、 中 配 和 高 配 ) ， 不 同 的 配置 会 提供 不 同 的 
RAM、CPU 核 数 和 内 存 ， 因 此 我 们 在 很 多 EC2 实 例 中 试验 运行 
map/reduce 代 码 ， 从 而 找到 性 价 比 最 好 的 配置 。 数 据 处 理 需 要 约 10~ 
20 分 钟 (价值 几 美 元 )  ， 具 体 所 耗 时 间 会 依赖 于 机 器 的 数量 (我 们 从 4 
一 10 台 都 尝试 了 一 遍 ) 和 EC2 实 例 的 配置 (我们 尝试 了 低 配 和 中 
fic) 。 








map/reduce(Hadoop)Job 的 输出 结果 是 很 多 有 序 的 文件 ， 这 些 文 件 
保存 在 Amazon 的 S3 桶 ( (bckets) 中 。 为 了 在 可 视 化 中 把 数据 放 到 一 个 
文件 中 (与 前 述 方 式 相同 ，Web 站 点 和 手机 网 站 分 别 存储 ， 各 自 有 一 
个 独立 文件 ) ， 我 们 从 S3 下 载 结果 文件 到 本 地 ， 然 后 按照 传统 的 方法 








进行 排序 和 归并 。 现 在 ， 数 据 已 经 按照 期 望 的 方式 保存 在 一 个 文件 中 
了 ， 可 视 化 的 准备 工作 已 经 完成 。 





可 视 化 的 第 一 步 


重申 一 下 ， 该 项 目的 目标 是 对 《纽约 时 报 》Web 站 点 nytimes.com 
和 手机 网 站 mobile.nytimes.com 一 天 的 访问 量 进行 可 视 化 ， 并 查看 在 一 
天 之 中 用 户 对 这 两 个 站 点 的 访问 是 如 何 变 化 的 。 我 们 想 查 看 在 特定 地 
理 区 域 甚至 是 全 球 范围 内 ， 是 否 出 现 了 某 些 有 趣 的 模式 。 在 美国 的 哪 
个 地 区 、 什 么 时 间 手 机 网 站 流量 达到 峰值 ? 我 们 是 否 会 看 到 在 手机 普 
及 率 比美 国 高 的 国家 ， 如 中 国 和 印度 ， 其 对 手机 网 站 的 访问 量 是 否 更 
高 ? Web 站 点 和 手机 网 站 在 一 天 的 某 些 时 间 段 ， 如 凌晨 、 上班 时 间 、 午 
餐 时 间 和 下 班 时间 的 访问 量 如何 ? A EE a a a a E E E 
可 以 回答 ,但 是 我 们 希望 给 这 种 普通 的 报告 增加 一 种 新 的 视觉 维度 ， 
使 人 们 可 以 看 到 在 一 天 的 不 同时 段 上 访问 量 按照 地 理 维度 的 分 布 情 
YF ° 














Ri TETEME Pe ae BE Tia TE eE, 
将 一 天 之 中 对 nytimes.com 的 每 次 访问 用 一 个 小 的 黄色 圆圈 表示 ， 对 
mobile.nytimes.com 的 每 次 访问 用 一 个 小 的 监 色 圆 轿 表示 。 除 了 全 球 苑 
围 的 视图 ， 我 们 还 希望 创建 一 个 聚焦 (或 缩放 ) 于 美国 的 视图 。 





对 于 我 们 所 创建 的 第 一 个 可 视 化 在 后 面 将 会 详细 介绍 ， 在 此 不 做 
资 述 。 对 我 们 而 言 ， 这 次 答 试 主要 是 一 个 学 习 积 累 的 过 程 一 对 如 此 
庞大 的 数据 集 进行 合理 可 视 化 会 面临 很 多 挑战 ， 而 且 我 们 马上 整 意识 














2 SX Ae 在 当前 版 本 之 前 ， 我 们 对 代码 进行 了 多 次 修改 ， 而 且 只 
要 有 时 间 ， 我 们 仍然 会 不 断 对 数据 处 理 和 可 视 化 处 理 的 模块 进行 优 
化 。 


Processing 


Processing (面向 设计 的 开源 编程 语言 和 集成 开发 环境 ) 被 选 作 我 
们 的 可 视 化 工具 ， 有 几 个 原因 。 首 先 ， 在 《纽约 时 报 》 研 发 小 组 中 的 
成 员 当 中 有 些 人 已 经 有 使 用 Processing 完 成 小 的 数据 可 视 化 的 项 目 经 
验 ， 他 们 还 拥有 使 用 传感器 作为 数据 收集 设备 进行 探索 的 经 验 。 此 
外 ， 我 们 都 是 Ben Fry、Casey Reas(Processing 创 始 人 ) 和 Aaron Koblin 
使 用 该 工具 所 创造 的 作品 的 超级 粉丝 ， 我 们 认为 Processing 将 会 成 为 对 
海量 数据 进行 可 视 化 的 理想 工具 。 





对 于 该 可 视 化 ， 我 们 需要 做 的 第 一 件 事 是 将 网 站 的 访问 用 户 的 经 
纬度 信息 映射 到 Processing 中 的 二 维 可 视 化 图 形 中 。Aaron Koblin 友 情 提 
供 了 一 些 他 在 前 一 个 项 目 中 实现 该 功能 的 代码 一 一 很 不 错 的 、 紧 趴 的 
Java 类 ， 可 以 把 经 纬度 组 转换 成 x、y 和 坐标 。 我 们 需要 做 的 就 是 向 Java 库 
传递 数据 文件 中 的 经 纬度 元 组 ，Java 库 就 会 返回 x、y 坐 标 。 然 后 ， 我 们 
把 这 些 坐 标 值 传 给 Processing 的 绘图 API 来 定位 《纽约 时 报 》Web 站 点 
nytimes.com 和 手机 网 站 mobile.nytimes.com 的 每 个 用 户 的 位 置 。 








基础 层 地 图 


创建 基础 层 地 图 一 一 如 刚刚 绘制 的 世界 地 图 一 一 所 需 的 时 间 会 远 
远 超过 你 的 想象 。 首先 ， 我 们 需要 对 美国 和 世界 做 出 准确 的 表示 。 经 
过 大 量 的 数据 探 达 后 ， 我 们 最 终 使 用 加 州 大 学 洛杉矶 分 校 的 CENS 组 数 
据 集 ， 它 描绘 了 世界 上 每 座 城 市 的 经 度 /纬度 坐标 。 





在 使 用 该 数据 集 的 初始 阶段 ， 每 当 程序 局 动 时 ， 直 接 在 Processing 
集成 环境 中 进行 渲染 ， 但 是 这 个 渔 染 花 费 的 时 间 比 我 们 期 望 的 要 多 很 
多 ; 因为 知道 该 数据 不 会 变 ， 最 后 ， 我 们 创建 了 一 个 JPEG 地 图 ， 向 背 
景 地 图 中 加 载 一 个 非常 小 的 文件 ( 见 图 16-1 和 图 16-2) 。 这 种 方式 给 我 
们 节省 了 好 几 分 钟 的 渲染 时 间 ( 当 解 析 大 数据 集 时 ， 这 部 分 工作 所 需 
的 时 间 会 更 长 ) 和 处 理 能 力 ， 并 且 成 为 所 有 后 续 的 数据 输出 和 视频 的 


Ab E 
Fas ° 








图 16-1: 美国 人 口 地 图 ( 见 彩 图 123) 





图 16-2: 世界 人 口 地 图 ( 见 彩 图 124) 


刚刚 处 理 的 数据 哪 去 了 





有 了 纬度 /经 度 投 影 代 码 和 地 图 轮廓 ， 我 们 开始 在 地 图 上 描绘 交通 
数据 图 。 在 可 视 化 初期 ， 我 们 使 用 不 包含 重大 新 闻 的 任意 一 天 的 数据 
(2009 年 2 月 15 日 ) 。 这 一 天 的 Web 站 点 和 手机 网 站 的 流量 /访问 次 数 
和 平均 值 一 致 。 


我 们 之 前 已 经 对 数据 进行 过 清洗 、 排 序 和 添加 地 理 位 置 编 码 ， 它 
包含 了 时 间 戳 、Web 站 点 和 手机 网 站 上 给 定 一 天 的 用 户 每 次 查看 /点 击 
时 所 处 的 纬度 /经 度 值 。 现 在 到 了 创建 一 个 Processing 应 用 程序 的 时 刻 
了 ， 它 可 以 扫描 Web 站 点 和 手机 网 站 的 日 志文 件 ， 对 于 用 户 的 每 次 查 
看 /点 击 ， 会 在 地 图 上 描绘 一 个 基于 用 户 点 击 时 所 在 位 置 而 生成 的 点 。 


场景 1， 步 又 1 


Processing 应 用 在 绝 大 多 数 情况 下 由 两 部 分 组 成 的 : 启动 ( (stup) 和 
循环 绘制 ( 《daw)。 在 Processing 应 用 的 setup () 画 数 中 ， 你 可 以 执行 应 
用 需要 的 任何 工作 ， 比 如 变量 初始 化 、 打 开 输 入 文件 、 字 体 加 载 等 。 
循环 绘制 是 Processing 代 码 的 根本 。Processing 应 用 中 的 draw () 函数 通 
常 每 秒 钟 会 被 调用 30 一 60 次 〈 这 是 时 间 帧 速率 ) 。 


我 们 的 第 一 次 答 试 的 内 容 大 体 如 下 〈 人 简单 的 伪 代 码 描述 ) : 


void setup () 

-open up both the mobile and web log files 

-load the data for the world map 

void draw () 

-draw the world map 

-read a second's worth of log data from the web and mobile log files 
-draw a yellow point for each visit/hit to nytimes mobile site(during that 
second in the log file) 

-draw a blue point for each visit/hit to nytimes.com website(during that 
second in the log file) 


这 段 代码 尽管 存在 一 些 问 题 ， 但 是 能 够 生成 一 些 可 以 在 屏幕 上 观 
看 的 画面 。 可 以 多 次 运行 该 应 用 程序 ， 查 看 图 片 中 描绘 的 点 ， 这 些 点 
表示 《纽约 时 报 》Web 站 点 和 手机 网 站 一 天 的 流量 。 随 时 间 变 化 的 流量 
的 模式 让 人 难以 置信 一 一 画面 看 起 来 似乎 是 活生生 的 ， 闪 烁 的 灯光 向 
布 在 整个 地 球 上 ， 如 图 16-3 所 示 。 











这 是 伟大 的 第 一 步 ， 但 十 我 们 的 代码 和 方法 部 需要 做 些 修 改 。 以 
下 部 分 将 介绍 需要 改进 的 3 个 方面 。 








16-3: 原始 可 视 化 显示 了 《纽约 时 报 》Web 站 点 nytimes.com 和 手机 


网 站 mobile.nytimes.com 在 全 世界 的 流量 一 -黄色 圆圈 表示 Web 站 点 的 
流量 ， 蓝 色 圆 圈 表 示 手 机 网 站 的 流量 ( 见 彩 图 125) 








首 匈 ， 该 可 视 化 没有 显示 来 目 每 个 用 户 位 置 的 Web 站 点 和 手机 网 站 
的 流量 的 比例 。 比 如 ， 在 一 天 的 某 个 时 刻 ， 可 能 有 很 多 Web 站 点 和 手机 





网 站 的 用 户 是 来 自 相 同 的 地 方 ， 比 如 纽约 ， 可 以 看 到 有 非常 高 的 流 
=) 。 有 了 时， 可 能 有 成 千 上 万 用 户 来 自 同一 个 地 理 位 置 。 同 样 ， 假 如 
是 纽约 ! 


在 该 应 用 程序 的 最 初版 本 中 ， 日 志文 件 中 出 现 的 每 个 地 理 位 置 
(一 组 经 纬度 值 ) 在 我 们 的 地 图 上 都 是 使 用 相同 大 小 的 点 表示 的 。 为 
了 能 够 表示 比例 ， 需 要 基于 与 某 个 位 置 关联 的 用 户 量 来 调整 每 个 位 置 
的 可 视 化 表示 (地 图 上 的 蓝 色 和 黄色 点 ) 。 











其 次 ， 因 为 黄色 (表示 Web 站 点 流量 ) ARE (表示 手机 网 站 流 
量 ) 点 大 小 相同 ， 而 我 们 (在 绘制 循环 中 ) 先 画 表示 Web 站 点 的 点 ， 再 
画 霄 示 手 机 网 站 的 点 ， 当 两 种 点 击 类 型 位 于 同一 个 地 理 位 置 时 ， 昨 
点 会 履 瘟 黄色 点 。 这 对 可 视 化 而 言 不 是 一 个 好 的 选择 。 








没有 考虑 时 间 





在 可 视 化 的 第 一 阶段 ， 我 们 没有 考虑 人 们 在 Web 站 点 或 手机 网 站 

上 每 次 访问 或 页 面 查 看 所 人 花费 的 时 间 ， 只 是 简单 地 在 地 图 上 为 每 次 访 

问 画 了 一 个 点 ， 在 可 视 化 的 整个 过 程 中 都 不 再 管 它 了 。 这 样 ， 就 没有 

会 注意 到 在 某 些 大 城市 《纽约 时 报 》 有 持续 较 大 的 流量 ， 而 在 一 些 

小 的 偏远 地 区 我 们 可 能 一 天 只 有 几 次 查看 ， 这 种 表示 方式 会 使 我 们 错 
误 地 认为 这 些 地 区 整 天 都 有 流量 。 


我 们 需要 解决 这 个 问题 ， 并 结合 比例 表示 问题 ， 也 就 是 说 ， 我 们 
需要 提出 一 种 新 的 方法 ， 可 以 精确 地 表示 从 任何 一 个 位 置 有 多 少 人 访 
问 该 网 站 ， 以 及 他 们 在 某 篇 文章 上 停留 了 多 长 时 间 ， 或 者 在 整个 网 站 
上 停留 的 时 间 





最 重要 的 是 ， 我 们 在 一 天 的 每 一 秒 内 都 必须 做 这 件 事 ! 


定时 提 援 


最 后 ， 我 们 选择 将 整 天 的 数据 流量 创建 成 为 一 个 定时 提 摄 视频 ， 
从 而 使 得 我 们 能 够 在 整个 《纽约 时 报 》 公 司 内 共 至 该 可 视 化 。 为 了 解 
决 这 个 问题 ， 我 们 决定 使 用 Processing 的 一 个 内 置 的 视频 库 ， 它 能 够 将 
循环 绘制 生成 的 时 间 帧 保存 到 视频 文件 中 ， 进 而 创建 出 很 清晰 的 电影 
形式 的 输出 。 





场景 1， 步 又 2 


在 项 目的 第 一 个 版 本 代码 基础 之 上， 我们 增加 了 通过 Processing 的 
MovieMaker 库 将 可 视 化 捕获 下 来 并 保存 到 一 个 文件 中 的 功能 。 我 们 还 
增加 了 应 用 支持 ， 能 够 使 一 对 Web 站 点 或 手机 网 站 的 每 次 点 击 的 可 视 
化 都 能 够 体现 该 次 访问 的 生命 周期 。 平 均 来 说 ，Web 站 点 和 手机 网 站 
这 两 个 站 点 的 一 次 访问 时 间 是 历时 3~4 分 钟 。 因 此 ， 在 迭代 过 程 中 ， 
不 再 是 在 地 图 上 画 一 个 点 并 在 后 面 整整 24 小 时 都 不 管 它 ， 我 们 党 试 慢 
慢 地 每 3 分 钟 淡出 消减 一 个 点 。 当 然 ， 一 个 独立 用 户 不 是 每 3 分 钟 对 
Web 站 点 或 手机 网 站 执行 一 次 点 击 一 一 日 志文 件 中 显示 的 很 多 点 击 都 
是 来 自 同一 批 用 户 ， 或 者 是 用 了 更 长 的 时 间 浏 览 了 网 站 的 很 多 页 面 的 
用 户 。 但 是 为 了 避免 可 视 化 的 最 初版 本 过 于 复杂 ， 我 们 就 算 统 地 认为 
每 次 对 网 站 的 访问 都 是 “3 分 钟 访问 ”。 





对 于 这 种 简化 的 表示 ， 我 们 需要 你 存 一 天 内 的 每 次 查看 /点 击 痰 出 

3 分 钟 以 上 的 点 。 这 意味 着 需要 在 内 存 中 存储 很 多 对 象 。 对 于 每 秒 钟 内 
Web 站 点 和 手机 网 站 上 的 每 次 点 击 ， 我 们 都 会 在 Processing 应 用 程序 中 
创建 一 个 对 象 ， 它 的 任务 是 保存 该 点 击 的 “生命 周期 ”， 也 就 是 说 ， 这 
个 点 需要 在 屏幕 上 停留 多 长 时 间 (3 分 钟 ，， 使 用 这 些 对 象 来 帮助 我 们 
在 可 视 化 的 整个 周期 内 对 点 实现 淡出 效果 。 














因此 ， 我 们 再 回 过 来 看 Processing 的 绘制 循环 。 我 们 还 是 每 秒 钟 从 
Web 和 手机 网 站 的 日 志文 件 中 读 取 数据 ， 但 是 对 于 每 次 单 击 ， 我 们 创 
建 一 个 Hit ( 单 击 ) 对 象 ， 其 初始 生命 周期 设置 为 3 分 钟 ， 初 始 不 透明 
度 是 100% 《这 些 值 在 迭代 循环 的 每 次 绘制 中 不 断 减 少 ) 。 读 完 日 志 数 
据 后 ， 我 们 壳 历 内 存 中 Hit 对 象 集 合 。 对 于 每 个 Hit 对 象 ， 我 们 重 痢 描 
绘 表示 该 单 击 的 点 ， 其 透明 度 是 基于 该 单 击 剩 余 的 生命 周期 ， 在 3 分 钟 
时 间 内 把 它 淡出 。 当 每 个 Hit 对 象 达 到 生命 周期 时 ， 把 它 从 内 存 中 删 
除 ， 并 从 地 图 上 删除 相应 点 ( 即 不 再 重新 描绘 它 ) 。 





因为 每 秒 钟 大 约 需 要 对 400 一 500 次 点 击 进行 可 视 化 ， 这 种 方法 意 
味 看 任何 时 刻 都 需要 在 内 存 中 存储 很 多 对 象 ， 来 保存 所 有 点 击 (或 用 
户 ) 轨迹 。 我 们 已 经 意识 到 这 个 问题 ， 并 想到 了 一 些 优化 方案 ， 但 是 


还 是 想 尝试 这 些 简单 的 步骤 并 确定 这 种 方法 是 否 可 行 。 











让 我 们 运行 一 下 ， 看 看 会 发 生 什么 


增加 支持 每 次 点 击 在 3 分 钟 后 淡出 的 功能 ， 使 我 们 更 接近 于 对 该 网 
站 流量 的 可 视 化 ， 但 是 还 需要 做 更 多 的 工作 。 一 方面 ， 我 们 还 没有 把 
每 个 地 理 位 置 的 流量 比例 显示 添加 到 可 视 化 中 。 男 一 方面 古 速度 问题 
一 一 运行 这 个 版 本 ， 我 们 在 25 分 钟 内 只 能 生成 历时 45 秒 钟 的 视频 。 内 
存 和 处 理 器 处 理 都 很 慢 ， 可 视 化 的 运行 和 泻 染 更 慢 。 我 们 试 着 在 实验 
ZJE ARN EAT (Mc Minis, 1GB RAM; MacBook Pros, 4 








GB RAM 和 Mac Pro)， 但 是 该 应 用 程序 在 每 台 机 器 上 演 染 都 很 慢 。 虽 
然 该 可 视 化 与 我 们 期 望 的 结果 进一步 接近 了 ， 但 是 需要 对 它 做 一 轮 新 
的 优化 一 一 我 们 需要 生成 历时 1 天 的 可 视 化 视频 ， 而 目前 我 们 最 多 能 够 
生成 历时 1 个 小 时 的 视频 。 











第 一 版 的 可 视 化 可 以 通过 如 下 链接 查看 : 


http: //nytlabs.com/dataviz ° 


可 视 化 的 第 二 步 





既然 我 们 已 经 清楚 想 要 什么 样 的 可 视 化 ， 我 们 需要 实现 它 。 除 了 
增加 文 持 能 够 显示 每 个 地 理 位 置 的 流量 比例 ， 我 们 需要 对 应 用 程序 进 
行 优化 ， 它 需要 我 们 重新 思考 如 何 收集 数据 。 


重新 回 到 比例 问题 


每 秒 钟 显示 每 次 点 击 并 不 能 显示 任何 比例 。 在 第 一 版 的 应 用 程序 
中 ， 来 目 加 拿 大 农村 地 区 的 少量 的 点 击 和 来 目 纽 约 的 成 干 上 万 的 点 
击 ， 其 可 视 化 权重 是 一 样 的 。 此 外 ， 从 内 存 和 处 理 器 对 可 视 化 进行 泻 
染 的 处 理 能 力 而 言 ， 每 秒 钟 显 示 所 有 的 点 击 代 价 太 高 。 








想 清 楚 后 ， 我 们 认为 答案 是 对 每 分 钟 每 个 地 理 位 置 的 点 击 次 数 进 
行 可 视 化 ， 而 不 是 每 秒 钟 进行 可 视 化 。 对 于 访问 日 志文 件 中 的 每 分 钟 
的 数据 ， 我 们 会 累加 每 个 地 理 位 置 的 点 击 总 数 。 这 种 方式 使 得 可 视 化 
结果 可 以 显示 每 个 地 理 位 置 的 流量 比例 ， 而 且 会 极 大 地 减少 Processing 
应 用 程序 的 原始 数据 输入 。 但 是 ， 这 种 方式 意味 着 我 们 需要 改变 数据 
处 理 和 mapmeduce 作 业 。 














一 步 处 理 数 据 





之 前 用 Python 实现 的 map/reduce 脚 本 ， 其 目的 是 从 原始 访问 日 志 中 
解析 出 我 们 需要 的 数据 ， 并 基于 时 间 对 数据 进行 排序 ， 因 此 ， 需 要 做 
些 修改 。 现 在 ， 该 脚本 需要 对 每 分 钟 、 每 个 地 理 位 置 〈 一 组 纬度 /经 度 
值 ) 的 所 有 点 击 进行 计数 ， 输 出 结果 数据 并 根据 访问 时 间 进 行 排 序 。 








如 有 果 你 对 map/reduce 古 如 何 工作 的 还 不 熟悉 ， 我 们 建议 你 从 网 上 
获取 一 些 基本 教程 进行 阅读 。 从 根本 上 说 ，map/reduce 是 一 个 编程 模 
型 ， 支 持 海量 数据 处 理 。 其 处 理 过 程 分 成 两 个 任务 ，mapping (BRAY) 
和 reducing (规约 ) 。Mapper 通 常 是 接收 一 些 输入 (在 我 们 的 例子 中 
是 日 志文 件 ) ， 对 数据 做 一 些 较 小 的 处 理 ， 然 后 以 键 / 值 ( (ky/value) 对 
的 方式 输出 数据 。Reducer 的 任务 是 接收 Mapper 的 输出 结果 数据 ， 对 数 
据 进 行 归并 或 规约 ， 通 常生 成 较 小 的 数据 集 。 


在 我 们 的 应 用 程序 中 ，Mapper 脚 本 读 入 原始 的 访问 日 志文 件 ， 对 
于 每 一 行 ， 以 如 下 格式 输出 键 / 值 对 : 


Timestamp of the access(in HH:MM format), latitude,longitude 1 





在 这 个 例子 中 ，key 2) 是 以 逗号 作为 分 隔 符 ， 包 含 了 日 志文 件 
中 每 次 点 击 的 时 间 戳 、 续 度 、 经 度 ， 而 value ( 值 ) 是 1 (表示 一 次 点 








击 计数 值 ) 。 


然后 ，Reducer 逐 行 读 取 Mapper 的 输出 ， 保 存 每 分 钟 每 个 地 理 位 置 
的 点 击 计 数值 。 因 此 ， 它 把 Mapper 输 出 的 每 个 “key” 存 储 到 一 个 Python 
字典 中 ， 每 次 遇 到 Mapper 的 输出 有 相同 的 “key”， 就 把 其 在 字典 中 的 计 
数值 增加 1。Python 字 典 看 起 来 大 概 如 下 : 


{ 

"12: 00, 40.7308, -73.9970": 128, 
"12: 00, 37.7791, -122.4200": 33, 
"12: 00, 32.7781, -96.7954": 17, 
#cut off for brevity...... 

"12: 01, 40.7308, -73.9970": 119, 
"12: 01, 37.7791, -122.4200": 45, 
"12: 01, 32.7781, -96.7954": 27, 


一 旦 Reducer 读 取 了 Mapper 的 所 有 的 数据 和 输入， 它 对 数据 进行 排序 
(基于 key)， 然 后 输出 排序 的 结果 : 


最 初版 本 中 Mapper 和 Reducer 的 代码 如 下 : 


Mapper 

#! /usr/bin/env python 

import sys 

#input comes from STDIN(standard input) 
for line in sys.stdin: 

#remove leading and trailing whitespace 
line=line.strip () 

#split the line into words 
words=line.split (‘\t’) 

try: 

#output the following: 

#time(HH:MM), latitude,longitude 1 


time=words[1] 

hours,mins,secs=time.split (": w 

t=hours+": "+mins 

print'%s, %s, %s\t%s'% (t,words[44], words[45], 1) 
except Exception: 

pass 

Reducer 

#! /usr/bin/env python 

from operator import itemgetter 

import sys 

locations={} 

#input comes from STDIN 

for line in sys.stdin: 

#remove leading and trailing whitespace 
line=line.strip () 

#parse the input we got from mapper.py 
key,count=line.split (\t') 

try: 

#update the count for each location(lat/Ing pair) 
#per minute of the day 

count=int(count) 
locations[key]=locations.get(key, 0) +count 
except Exception: 

#count was not a number or some other error, 
#so silently ignore/discard this line 

pass 

#sort the data and then output 
sorted_locations=sorted(locations.items () , key=itemgetter (0) ) 
for key,count in sorted_locations: 

try: 

time,lat,Ing=key.split (', ') 

print'%s, %s, %s, %s'%( (tme,lat,Ing,count) 
except Exception: 

pass 


狐 的 效 据 格 却 





在 原始 访问 数据 上 运行 完 新 的 map/reduce 脚 本 后 ， 我 们 得 到 了 一 
组 更 准确 的 数据 集 。 这 个 过 程 不 仅 减少 了 总 的 数据 量 ( (Wb 站 点 的 访 
问 数 据 ， 从 3000 万 行 左右 减少 到 300 万 行 ) ， 而 且 为 我 们 生成 了 每 个 地 
理 位 置 的 计数 值 。 现 在 ， 我 们 需要 确定 比例 因 于 。 以 下 是 新 的 结 采 数 
据 的 样本 一 一 注意 时 间 戳 、 纬 度 、 经 度 和 (每 分 钟 的 ) 点 击 计数 值 。 


12: 00, 039.948, -074.905, 128 
12: 00, 039.949, -082.057, 1 
12: 00, 039.951, -105.045, 3 
12: 00, 039.952, -074.995, 1 
12: 00, 039.952, -075.164, 398 
12: 00, 039.960, -075.270, 1 
12: 00, 039.963, -076.728, 4 
12: 00, 039.970, -075.832, 2 
12: 00, 039.970, -086.160, 4 


12: 00, 039.975, -075.048, 23 


可 视 化 比例 和 其 他 可 视 化 优化 


有 了 新 形式 的 数据 ， 我 们 不 再 是 每 秒 钟 为 每 次 点 击 画 一 个 点 ， 而 
征 可 以 每 分 钟 为 每 个 地 理 位置 的 点 击 数值 画 一 个 圆圈 ， 并 根据 点 击 数 
计算 圆圈 大 小 。 这 种 方式 可 以 生成 期 鹿 的 比例 显示 ， 使 得 可 视 化 的 读 
者 可 以 轻松 地 区 分 来 目 加 拿 大 农村 和 纽约 市 的 不 同 的 流量 老 别 。 





这 种 方式 也 极 大 地 减少 了 应 用 程序 需要 的 内 存量 。 我 们 还 是 需要 
在 内 存 中 保存 Web 站 点 和 手机 网 站 的 所 有 点 击 (这 样 我 们 才能 消 隐 去 时 
间 超 过 3 分 钟 的 点 击 ) ， 但 是 因为 我 们 现在 保存 的 是 每 分 钟 每 个 地 理 位 
置 的 点 击 数 ， 极 大 地 减少 了 需要 的 Hit 对 象 数量 。 对 于 任 一 分 钟 ， 来 自 
全 世界 的 流量 通常 包含 2000~3500 个 不 同 的 地 理 位 置 。 每 个 位 置 的 Hit 
对 象 必 须 存 储 在 内 存 中 ; 每 个 Hit 对 象 生 命 期 是 3 分 钟 ， 因 此 对 于 任 一 时 
刻 ， 内 存 中 可 能 有 6000~12000 个 对 象 一 一 数量 还 是 很 多 ， 但 是 已 经 远 
远 小 于 前 一 版 本 的 对 象 数量 。 














现在 ， 需 要 更 新 Processing 应 用 程序 ， 从 而 可 以 实时 保存 每 个 位 置 
在 任 一 时 刻 的 点 击 数 ， 而 且 圆 圈 大 小 比例 可 以 根据 点 击 数 调整 。 我 们 
一 起 看 个 简单 的 例子 。 


假定 数据 是 来 目 于 纽约 是 某 个 特定 的 纬度 /经 度 的 对 Web 站 点 的 访 
问 日 志 (数据 集中 有 非常 多 这 样 的 数据 ) 。 只 查看 一 天 中 很 短 的 一 段 





AYIA], (ETE TAY, ERU T : 


12: 00-100 hits 


12: 01-110 hits 


12: 02-90 hits 


12: 03-80 hits 


12: 04-100 hits 


当 在 地 图 上 为 这 个 地 理 位 置 的 点 击 数 画 立时 ， 我 们 希望 圆圈 大 小 
能 够 反映 点 击 数 ， 这 样 可 以 显示 比例 。 然 而 ， 我 们 不 能 简单 地 基于 当 
前 一 分 钟 周期 内 的 初始 点 击 /查看 计数 值 来 计算 圆圈 大 小 。 为 什么 呢 ? 
记 住 通常 对 一 个 站 点 的 访问 能 够 持续 3 分 钟 ， 因 此 我 们 决定 为 每 个 地 理 
位 置 的 点 击 数 保留 3 分 钟 ， 只 有 当 超 过 3 分 钟 后 才 把 这 些 地 理 位 置 的 计 
数值 删除 。 使 用 以 上 的 点 击 计数 ， 每 分 钟 忌 的 护 击 计数 值 将 会 如 下 : 





12: 00-100 hits(assuming no previous hits) 


12: 01-210 hits (100+110) 


12: 02-300 hits (100+110+90) 


12: 03-280 hits (110+90+80) 


12: 04-270 hits (90+80+100) 


注意 ， 对 于 任意 某 一 分 钟 ， 我 们 都 保存 了 该 时 刻 的 新 的 计数 值 以 
及 其 之 前 两 分 钟 的 点击 计数 值 。 





更 新 Processing 应 用 程序 代码 ， 保 存 每 分 钟 每 个 地 理 位 置 的 总 的 点 
击 数 ， 生 成 的 结 末 如 图 16-4 所 示 “。 该 新 版 本 允许 我 们 碍 看 任何 时 刻 地 图 
上 不 同 地 理 位 置 的 点 击 比 例 显 示 ， 而 且 也 说 明了 该 比例 如 何 基 于 每 个 
地 理 位 置 的 流量 的 增长 而 扩大 ， 或 减少 而 收缩 。 





WEB + MOBILE June 25 2009 7:08 PM EST 


; 
. 








图 16-4: 更 新 后 的 可 视 化 显示 了 在 2009 年 7 月 25 日 《纽约 时 报 》Web 
站 点 nytimes.com 和 手机 网 站 mobile.nytimes.com 来 自 美国 的 流量 一 一 黄 





色 圆 圈 表 示 到 Web 站 点 的 流量 ， 而 红色 圆圈 表示 到 手机 网 站 的 流量 ( 见 
彩 图 126) 


(5 REY FH as E fs LYE 


对 Processing 应 用 程序 进行 升级 使 其 能 够 处 理 新 的 数据 格式 和 方 
法 ， 在 此 之 后 ， 我 们 创建 了 一 个 完整 的 历时 24 小 时 的 定时 拍摄 视频 。 
我 们 新 的 代码 每 次 能 够 正常 运行 几 个 小 时 ， 不 存在 之 前 遇 到 的 内 存 和 
整体 机 右 延 时 ， 现 在 是 生成 完整 的 定时 提 摄 视频 的 时 候 了 。 不 再 像 第 
一 次 那样 尝试 在 地 图 上 为 历时 24 小 时 定时 拍摄 渲染 Web 站 点 和 手机 网 
站 数据 ， 我 们 只 使 用 手机 网 站 的 数据 (其 数据 量 大 约 是 Web 站 点 数据 
量 的 10%) ; 这 样 ， 我 们 束 可 以 比 同时 渲染 Web 站 点 和 手机 网 站 数据 
更 快 地 查看 到 结果 或 者 发 现 可 能 存在 的 问题 。 


由 于 不 确定 应 该 对 24 小 时 的 定时 拍摄 进行 多 大 程度 的 收缩 (视频 
应 该 在 1 分 钟 、10 分 钟 还 是 中 间 某 个 值 的 时 间 内 ， 展 示 完 整 的 24 小 时 扫 
摄 ? ) ， 我 们 决定 测试 一 下 ， 采 用 10 分 钟 。 该 项 目 最 激动 人 心 的 时 刻 
之 一 是 当 我 们 和 次 笑 试 洽 染 24 小 时 的 手机 网 站 数据 时 ， 点 击 Processing 
的 运行 ( (Rn) 按 钮 那 一 刻 。 把 数据 在 一 台 MacBook Pro 机 上 渲染 成 10 分 
钟 的 定时 拍摄 视频 花 了 约 2 个 小 时 。 结 果 生 成 了 | 








KRSM Mia, MAMAMA o STRAW aE, KATE 
识 到 视频 时 间 太 长 了 一 一 感觉 视频 太 慢 了 ! FPR, BE 
一 个 历时 接近 1.5 分 钟 的 视频 。 经 过 几 次 笑 试 以 及 对 代码 和 帧 速率 的 调 
整 ， 我 们 生成 了 新 的 视频 。 对 较 小 规模 的 手机 网 站 数据 集 进行 泻 染 可 
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个 小 时 ， 这 次 泻 染 人 花 了 24~36 小 时 ， 这 取决 于 其 所 用 的 机 器 的 性 能 。 


半 目 动 化 


最 后 ， 我 们 希望 能 够 对 整个 过 程 实现 目 动 化 ， 这 样 程 序 接收 到 输 
入 命令 后 ， 可 以 执行 任何 一 天 的 定时 拍摄 洽 染 。 该 过 程 现在 十 半 目 动 
化 的 ， 我 们 可 以 很 容易 为 同一 天 渔 染 多 个 定时 拍摄 的 视频 。 举 个 例 
子 ， 我 们 可 以 针对 以 下 任何 一 种 情况 进行 泻 染 : 





世界 地 网 的 Web 站 点 和 手机 网 站 的 数据 。 
美国 地 匈 的 Web 站 点 和 手机 网 站 的 数据 。 
世界 地 图 和 美国 地 图 的 Web 站 点 的 数据 。 
世界 地 图 和 天国 地 图 的 手机 网 站 数据 。 


每 种 类 型 的 数据 需要 花 多 长 时 间 渔 染 ? 这 取决 于 日 期 以 及 那 一 天 
是 否 是 重大 新 闻 日 ( 即 是 否 有 很 大 流量 ) 。 平 均 来 说 ， 以 下 是 该 可 视 
化 大 约 的 输入 数据 量 和 泻 染 人 花费 的 时 间 : 








手机 网 站 数据 


数据 文件 约 7MB、30 万 行 


泻 染 时 间 约 2 个 小 时 


Web 站 点 数据 


数据 文件 约 70MB、300 万 行 


fe Sey [JAI ~ 2 


Web 站 点 + 手机 网 站 数据 


数据 文件 约 77MB、330 万 行 


fe Sey AJA ~ 2 


PEGE RE AY FH pL TT SE 


在 Processing 应 用 程序 内 ， 我 们 每 秒 钟 捕获 15 帧 的 视频 。 对 于 每 一 
帧 ， 在 屏幕 上 绘制 了 1 分 钟 的 日 志 量 。 对 于 24 小 时 的 数据 量 ， 需 要 捕获 
1440 分 钟 的 数据 。 把 每 15 分 钟 的 数据 泻 染 成 时 间 长 度 为 一 秒 的 视频 ， 
则 1440 分 钟 的 数据 会 生成 96 秒 钟 的 视频 ( 约 1.5 分 钟 ) 。 


生成 的 视频 有 什么 用 


在 本 书 要 付 印 时 ， 我 们 刚刚 完成 对 数 天 的 数据 进行 演 染 。 在 纽约 
时 报 大 厦 28 层 的 走 遍 上 挂 着 10 台 监视 器 ， 播 放 着 我 们 所 做 的 一 些 可 视 
化 视频 ， 包 括 这 些 流量 图 。 其 中 有 6 人 台 监 视 右 目 动 播放 本 半 介 绍 的 定时 
招 摄 视频 ， 其 他 4 台 屏 瘟 上 显示 的 是 《纽约 时 报 》Web 站 点 和 手机 网 站 
当天 全 部 流量 的 快照 (美国 和 全 球 ) 。 我 们 开始 在 公司 内 分 享 这 些 视 
频 ， 并 且 探 索 更 多 的 可 视 化 来 查看 一 天 内 可 以 发 现 哪些 模式 。 我 们 还 
观察 “重大 新 闻 日 "和 “平常 日 ”中 ， 用 户 使 用 模式 的 差异 。 








结束 语 


我 们 从 目前 创建 的 可 视 化 中 观察 到 了 一 些 有 趣 的 模式 ， 绝 大 多 数 
如 图 16-5 到 图 16-8 所 示 。 
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图 16-5: 手机 网 站 mobile.nytimes.com 在 2009 年 6 月 25 日 这 一 天 在 美国 
的 流量 ( 见 彩 图 127) 
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图 16-6: 手机 网 站 mobile.nytimes.com 在 2009 年 6 月 25 日 这 一 天 在 全 球 
的 流量 ( 见 彩 图 128) 





图 16-7 Web 站 点 nytimes.com 在 2009 年 6 月 25 日 这 一 天 在 美国 的 流量 
( 见 彩 图 129) 





16-8 ”Web 站 点 nytimes.com 在 2009 年 6 月 25 日 这 一 天 在 全 球 的 流量 
( 见 彩 图 130) 


第 一 个 模式 是 手机 网 站 的 流量 在 美国 约 早 上 5 扩 或 6 态 开 始 骏 涨 ， 
该 时 段 人 们 醒 来 开始 去 上 班 (尤其 是 在 东海 岸 ) 。 在 约 8 点 半 或 9 点 人 
们 到 达 办 公 室 前 ， 手 机 网 站 流量 一 直 很 大 ;而 当 人 们 到 达 办 公 室 时 ， 
Web 站 点 流量 开始 第 一 次 大 增 。Web 站 点 的 流量 在 一 整 天 都 很 大 (尤其 
征 午饭 时 间 ) ， 下 午 稍 有 点 下 降 ， 很 可 能 是 人 们 在 下 班 路 上 ， 而 这 时 
手机 网 站 的 流量 又 开始 增加 。 这 个 观察 和 我 们 开始 研究 前 的 预期 相 
同 ， 但 是 该 可 视 化 进一步 证 实 了 我 们 的 猜想 。 











另 一 个 有 趣 的 模式 是 Web 和 手机 网 站 的 国际 流量 都 很 大 ， 非 洲 、 中 
` 印度 和 日 本 某 些 地 区 的 手机 网 站 流量 也 很 大 。 


我 们 相信 从 国际 性 和 美国 内 的 流量 上 可 以 观察 到 更 多 有 趣 的 模 
式 ， 由 于 可 以 从 流量 数据 中 演 染 更 多 的 视频 ， 我 们 将 会 探索 这 些 模 
式 。 我 们 邀请 你 也 一 起 来 观察 ， 并 告诉 我 们 你 所 观察 到 的 模式 ! 你 可 
以 从 下 面 的 链接 中 查看 一 些 可 视 化 例子 : http: //nytlabs.com/dataviz/ ° 





[1]: 两 个 大 圆圈 在 Dallas、Texas、Waterloo 和 Ontario 附 近 。 这 些 城市 
都 是 手机 网 站 的 中 楷 城 市 《如 Waterloo 是 黑莓 /RIM 的 总 部 ) ， 大 量 的 手 
机 流量 在 到 达 我 们 的 服务 器 前 是 先 通过 Dallas 和 Waterloo 的 代理 服务 器 
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第 17 章 ”深入 揭秘 复杂 系统 Lance Putnam ` 
GrahamWakefield ` Haru Ji 、 Basak Alper ` Dennis 


Adderton 和 JoAnn Kuchera-Morin 
媒体 艺术 和 技术 ， 加 州 大 学 圣 巴巴 拉 分 校 
多 模式 “竞技 场 ” 


走 进 现实 版 的 “全 息 甲板 ( (Hlodeck)” 趾 或 “< 大脑 *"， 进 入 一 个 从 未 
见 过 的 、 晨 撼 人 心 的 新 世界 ， 这 会 是 一 种 什么 样 的 感觉 ? 除 此 之 外 ， 
大 目 然 中 迄今 为 止 仍然 未 知 的 方方面面 ， 如 采 我 们 突然 能 够 杀 号 体 难 
一 下 ， 那 又 会 是 一 种 什么 样 的 感觉 ? 实际 上 ， 这 些 问 题 也 正 是 位 于 美 
国 加 州 的 加 州 大 学 圣 巴巴 拉 分 校 纳 米 技术 研究 所 AlloSphere 项 目 ”的 科 
学 家 和 艺术 家 们 正在 探索 的 。 我 们 拥有 一 全 设备 ， 这 合 设备 使 得 我 们 
有 能 力 对 复杂 、 高 维 的 数据 和 系统 进行 探索 并 与 之 交互 一 无 论 是 亚 
原子 粒子 、 移 动 接 入 网 络 ( (UAN) 装 置换 或 是 一 个 完整 的 综合 生态 系统 
一 一 在 这 台 设 备 的 帮助 之 下 都 可 以 成 为 能 够 让 人 杀身 体验 的 世界 。 


AlloSphere 是 世界 上 最 大 的 兼 具 科 学 性 和 艺术 性 的 设备 ， 也 可 以 称 
作 实 验 室 。 其 功能 涵盖 “沉浸 式 可 视 化 ”*( (imersive visualization) 03 


\`“ 可 上 听 化 ”( (snification) 和 多 模式 数据 管理 。AlloSphere 是 一 个 三 层 楼 





高 的 球体 ， 为 改善 其 感知 体验 而 进行 了 展 好 的 译 调 校 ， 拥 有 一 个 360° 
视角 的 、 超 黑 、 非 反射 的 大 屏幕 ， 屏 幕 四 周 环绕 布置 了 一 套 多 路 扬 声 
絮 隆 列 ， 整 个 系统 位 于 一 个 无 回声 的 工作 室 中 ， 如 图 17-1 所 示 。 站 在 中 
R ( 见 图 17-2) 上 的 多 个 用 户 在 体验 着 立体 图 投影 和 空间 声音 的 同 
时 ， 还 可 以 通过 无 数 的 多 模式 设备 进行 交互 。 




















图 17-1: 真实 比例 的 AlloSphere 虚 拟 模型 ( 见 彩 图 131) 








图 17-2: AlloSphere 的 全 景 图 ( 见 彩 图 132) 


AlloSphere 的 构想 源 于 作曲 家 JoAnn Kuchera-Morin， 和 希望 能 够 找到 
一 种 通用 的 可 以 挑战 视觉 和 听觉 极限 的 多 媒体 设备 ， 从 而 为 忆 术 表现 
和 科学 探索 找到 新 的 模式 。 其 目的 是 为 各 个 领域 的 研究 人 员 提 供 一 个 
共同 的 场所 来 分 享 见解 并 共同 探索 类 似 于 对 称 性 、 美 丽 、 模 式 形 成 和 
出 现 等 类 型 的 基础 问题 。 面 对 这 样 一 个 独一无二 的 机 遇 ， 我 们 期 望 能 
够 建立 起 一 种 同时 以 艺术 和 科学 这 两 门 学 科 为 基础 而 不 局 限于 其 中 任 
何 一 门 的 前 沿 研究 。 这 就 需要 对 我 们 的 创造 性 方法 的 基础 因素 进行 全 
局 性 的 反思 : 计算、 数据、 处理、 感知 、 交 互 、 融 入 和 评估 。 











在 AlloSphere 项 目 中 ， 艺 术 家 、 科 学 家 和 工程 师 一 起 工作 ， 通 过 独 
等 而 且 有 趣 的 模拟 和 可 视 化 方式 来 揭 开 新 的 世界 的 面纱 ， 我 们 正在 实 
现 我 们 的 “ 美 即 真 ” 的 理念 。 我 们 通过 对 有 趣 的 方程 进行 可 视 化 和 可 听 
化 的 方式 帮助 研究 人 员 发 现 了 这 个 真理 。 这 些 可 视 化 为 展开 等 式 方 程 
提供 了 优雅 的 解决 方案 。 随 着 这 些 方程 的 展开 ， 我 们 既 能 够 发 现 其 中 
的 对 称 性 也 能 找到 残缺 的 对 称 性 。 

[1] “Holodeck"， 全 息 甲 板 ， 指 的 是 《星际 迷航 》 电 影 中 的 一 种 高 科技 
设备 。 如 想 要 了 解 更 多 ， 可 以 参考 http: //memory- 
alpha.org/wiki/Holodeck ° 

[2] AlloSpherree JIK XE EDANE AAH, iA 


全 新 的 视角 去 观察 和 诠释 科学 数据 。 后 面 会 介绍 更 多 。 
[3] “ 沉 温 式 可 视 化 ?" 即 多 维 的 可 视 化 ， 用 户 可 以 融入 其 中 去 体验 和 感 
oa o 





创造 性 思维 的 路 线 图 


AlloSphere 确 实 为 新 型 跨 学 科 人 研究 提供 了 有 趣 的 、 互 动 的 和 多 模 
式 的 环境 。 从 一 开始 ， 它 吏 采 用 了 定量 和 定性 相 结合 的 方式 来 解决 和 
发 现 问 题 。AlloSphere 还 提供 了 独特 的 体验 方式 一 一 “开局 ”用 户 的 所 有 
感官 一 一 杀身 体验 复杂 的 系统 如 何 随 着 时 间 展 开 。 在 确定 如 何以 计算 
机 语言 进行 描述 以 及 如 何以 富 于 美感 且 对 称 的 方式 来 展示 系统 的 过 程 
中 ， 我 们 发 现 美丽 和 对 称 之 间 存 在 一 些 共 同 的 主题 。 因此， 构建 美丽 
的 可 视 化 的 挑战 和 机 过 在于， 在 数学 真理 和 感性 表达 中 找到 一 种 平 
衡 ， 从 而 引出 了 一 种 认识 论 的 新 型 的 艺术 和 全 究 。 














美丽 和 对 称 


训 无 疑问 ， 美 丽 在 我 们 的 感知 中 起 着 至 关 重 要 的 作用 ， 它 和 对 称 
性 密切 相关 。 实 际 上 ， 从 古代 Pythagoreans 时 期 中 开始 ， 美 丽 和 对 称 
之 间 的 关系 就 已 经 非常 密切 ，Pythagoreans 认 为 美丽 的 核心 在 于 各 个 组 
成 部 分 的 比例 以 及 它们 之 间 的 相互 关系 ， 而 对 称 与 和 谐 分 别 是 视觉 和 
听觉 领域 的 相互 关系 ( (Ttarkiewicz 1972) 。 纵 观 我 们 的 整个 文明 史 ， 


这 个 理论 经 人 不 豪 。 


事实 上 ， 对 称 性 一 一 其 更 正式 的 定义 是 “变换 不 变性 *( (variance 
to transformation)( (Wyl 1952) 一 一 是 一 些 最 深远 的 科学 理论 的 本 质 基 
础 ， 包 括 狭 义 相 对 论 、 守 恒定 律 和 旋 理论 。 对 称 性 在 计算 模拟 上 也 起 
到 了 相当 鲜 为 人 知 但 却 至 关 重 要 的 作用 。 在 古代 ， 我 们 只 能 观察 到 周 
围 的 自然 形态 ; 今天 ， 通 过 计算 能 够 支持 的 比例 控制 ， 我 们 能 够 精确 
地 自主 构建 生成 出 具有 复杂 的 自然 模式 的 系统 。 在 这 些 复杂 的 模式 的 
核心 中 ， 我 们 确实 发 现 了 对 称 性 。 实 际 上 ， 对 称 性 经 常 能 够 指导 我 们 
在 数据 中 搜寻 有 意义 模式 的 研究 。 





人 MA 


[1] Pythagoreans 是 公元 前 6 世纪 希腊 哲学 家 、 数 学 家 。 


计算 方法 


计算 和 数学 为 科学 模型 和 艺术 实践 提供 了 很 好 的 共同 语言 。 计 算 
是 科学 模拟 的 重要 工具 ， 而 且 是 艺术 的 开放 性 素材 。 通 过 设计 和 实例 
化 复杂 的 目 治 系统 ， 我 们 敞开 了 基于 部 件 人 工 合成 的 新 的 知识 领域 的 
大 门 [1] o 








不 管 我 们 想 要 问 的 是 什么 问题 ， 计 算 要 求 我 们 必须 对 数据 的 基本 
组 件 有 正式 、 确 定 的 描述 ， 并 对 实时 处 理 中 的 局 限 性 有 充分 的 考虑 。 
我 们 发 现 ， 特 别 是 基于 物理 的 模型 ， 需 要 处 理 的 数据 主要 包含 与 空间 
和 /或 时 间 关 联 的 值 。 这 些 值 表示 特定 的 内 部 强度 ， 比 如 速度 、 流 量 、 
频率 或 复杂 阶段 ， 而 且 通 前 与 空间 的 位 置 和 /或 时 间 关 联 。 我 们 采用 的 
很 多 可 视 化 技术 需要 筛选 出 茶 个 特定 位 置 〈 如 交叉 位 置 ) EREA 
特定 值 的 位 置 。 





程序 执行 时 如 何 对 这 些 值 和 位 置 进行 初始 化 是 不 一 样 的 。 值 可 以 
是 显 式 的 (比如 定期 采样 点 或 位 置 / 值 组 合 对 ) 或 隐 式 的 (使 用 公式 或 
算法 实时 计算 ) 。 同 样 ， 位 置 可 以 是 显 式 的 (作为 位 置 / 值 组 合 对 ) 或 
隐 式 的 (根据 规则 网 格 维度 确定 ) 。 





在 各 种 不 同 的 计算 模型 中 ， 我 们 观察 到 了 数据 存储 和 处 理 的 3 种 通 
用 模式 : 


-作为 样本 值 的 规则 网 格 。 





-作为 位 置 / 值 组 合 对 的 集合 。 
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前 两 种 模式 之 间 的 区 别 与 计算 机 上 图 像 的 两 种 通用 的 展现 方式 间 
的 区 别 相 同 : 基于 光栅 〈 作 为 像素 矩阵 ) 或 基于 矢量 (作为 用 曲线 连 
接 的 一 组 点 的 集合 ) 。 第 三 种 模式 看 起 来 更 像 一 个 湾 盒 子 ， 输 入 是 一 
个 位 置 ， 输 出 是 一 个 对 应 的 值 。 





每 种 模式 都 有 目 己 特定 的 优 缺 点 。 网 格 允 许 模型 中 包含 未 知 信号 
量 和 局 部 交互， 但 是 它 需 要 容易 导致 频谱 混 且 的 取样 ， 同 时 当 要 以 合 
适 的 分 辨 紊 进 行 系统 建 模 时 可 能 需要 消耗 大 量 的 内 存 。 相 反 地 ， 位 置 / 
值 组 合 对 模式 和 函数 模式 支持 融 分 辨 紊 的 、 任 意 的 空间 分 辩 灰 ， 但 是 
实体 之 间 的 交互 建 模 计算 会 很 复业 © 














一 个 很 自然 地 遵循 这 些 模式 的 概念 划分 是 介 于 “时 空 领 
域 *( (satiotemporal field) 和 “自由 媒介 ”( (fee agentb 之 间 的 。 域 ( (feld) 
是 一 种 空间 维度 上 的 规则 网 格 (时 间 维 度 可 能 是 变化 的 ， 是 复杂 系 
统 的 底层 。 它 们 定义 了 整个 结构 的 底层 架构 和 系统 的 动力 学 。 域 表示 
如 密度 分 布 、 流 体 和 波 之 类 的 事物 。 很 多 学 科 存 在 域 的 概念 : 发 育 生 
物 学 包含 形态 域 和 遗传 观 ， 进 化 生物 学 包含 适应 观 ( (ftness 
landscape)， 而 物理 学 包含 量子 学 领域 和 波 函 数 。 媒 介 ( (aent) 是 位 置 / 











值 组 合 对 的 集合 ， 是 复杂 系统 的 上 层 。 媒 介 代表 实际 的 离散 实体 ， 在 
连续 空间 维度 上 则 可 能 是 移动 的 。 媒 介 使 我 们 能 够 更 为 细致 地 观察 整 
个 系统 的 部 件 并 过 滤 查 看 其 不 变 模式 ， 进 而 能 够 更 清晰 地 观察 域 。 此 
外 ， 媒 介 往 往 通过 对 一 个 域 的 值 的 读 写 来 相互 交互 。 








[1] : 举 个 例子 ， 在 人 造 生物 领域 ， 为 了 更 好 地 理解 生物 ， 人 们 试图 通 
过 digito 软 件 重 构 该 过 程 ， 但 是 它 引起 了 很 多 关于 人 工 创 造 的 讨论 。 
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我 们 的 工作 不 仅 涉 及 复杂 系统 的 设计 和 实例 化 ， 而 且 包括 过 滤器 
的 组 建 。 过 滤 需 与 系统 的 设计 和 实例 化 同等 重要 ， 其 定位 是 将 庞大 的 
计算 /数学 空间 简化 为 可 以 从 中 观察 并 提取 涵义 的 形式 。 换 句 话 说 ， 可 
视 化 和 可 听 化 都 涉及 材料 的 组 织 (组 成 ， 和 作为 我 们 的 研究 目标 的 模 
式 的 展示 (解释 ) 。 


我 们 经 第 问 目 己 这 样 的 问题 “在 数据 或 系统 中 我 们 要 寻找 的 是 什 
AP ”对 于 这 个 问题 ， 我 们 可 以 回答 说 是 正在 探索 一 些 有 趣 的 模式 ， 这 
些 模式 能 够 揭示 系统 展开 过 程 中 的 一 些 本 质 特性 。 此 外 ， 我 们 发 现 利 
用 对 称 性 有 助 于 引导 我 们 找到 重要 的 模式 。 我 们 经 党 应 用 的 可 视 化 技 
术 如 等 值 面 、 等 高 线 、 流 线 和 粒子 流 ， 显 示 了 值 (或 派生 值 ， 等 价 或 
不 变 的 系统 的 方方面面 。 这 些 “ 袖 珍 对 称 ”( (pckets of symmetry) 说 明了 
系统 的 相似 性 ， 也 为 对 目 己 的 行为 和 模式 的 更 深入 理解 建立 了 一 个 民 
好 的 起 点 。 我 们 知道 ， 对 称 性 太 多 会 降低 其 重要 性 ， 而 太 少 又 会 使 其 
显得 过 分 重要 ;， 过滤 一 定 是 落 于 有 序 和 无 序 这 两 者 之 间 。 这 一 原则 也 
适用 于 时 间 : 兴趣 模式 必须 使 其 特点 保持 足够 长 的 时 间 以 确保 能 够 被 
分 辨 出 来 ， 但 是 其 变化 也 必须 足够 频繁 以 吸引 眼球 。 





创建 过 滤器 是 一 个 自 适 应 的 过 程 ， 它 可 以 出 现在 一 个 模式 中 ， 也 
可 以 跨越 多 个 模式 。 我 们 发 现 多 模式 展现 对 于 揭示 隐藏 于 数据 中 的 或 
者 不 明显 的 对 称 和 不 对 称 性 是 很 重要 的 。 有 时 ， 数 据 集 或 处 理 过 程 的 
最 自然 的 感官 模式 无 法 充分 表达 其 结构 的 重要 特性 。 举 个 例子 ， 我 们 
发 现 波形 的 对 称 性 更 容易 被 观察 到 ， 而 空间 数据 中 被 略微 破坏 的 对 称 
性 更 容易 听 出 。 我 们 使 用 计算 转换 能 力 对 不 同 模型 进行 映射 ， 寻 找 一 
种 平衡 使 得 可 以 给 出 对 当前 现象 进行 更 完整 地 描述 的 大 脑 图 。 实 际 
上 ， 有 证 据 表 明 ， 大 脑 记忆 系统 包含 “ 情 缓 存 ”( (eisodic buffer), € 
可 以 把 视觉 和 听觉 感官 信息 集成 到 和 长 期 记忆 交互 的 多 维 代码 中 ， 因 
而 后 续 可 以 影响 长 期 的 学 习 过 程 ( (Bddeley 2000) 。 




















基于 媒介 的 模式 在 我 们 的 数据 和 系统 的 过 滤 和 展示 中 扮演 了 一 个 
至 关 重 要 的 角色 。 媒 介 在 视觉 和 听觉 上 都 很 有 吸引 力 ， 因 为 它们 可 以 
更 流畅 、 更 连续 地 运动 ， 其 运动 也 不 会 局 限于 离散 网 格 中 。 因 此 ， 媒 
介 人 允许 我 们 在 一 致 的 结构 中 观察 系统 中 的 主导 模式 ， 从 而 降低 噪音 。 
使 用 媒介 的 一 个 例子 是 使 用 连续 平滑 的 曲线 显示 粗糙 的 采样 域 。 








项 目 探 讨 


在 本 章 ， 我 们 将 讨论 6 个 研究 项 目 ， 酒 盖 从 艺术 /科学 数学 抽象 到 基 
于 实际 的 科学 数据 和 理论 的 精确 的 计算 模式 的 多 模式 表现 。 我 们 讨论 
的 范围 非常 广 沁 ， 从 真正 的 生物 数据 到 仿生 进化 演化 算法 以 及 原子 世 
FF; 然后 又 从 原子 层 探 讨 到 单一 所 原子 的 电子 层 ， 我 们 最 后 将 探讨 展 
示 电 子 目 旋 连贯 运动 的 一 个 项 目 。 





Allobrain 


Graham Wakefield,John Thompson,Lance Putnam, Wesley Smith 和 
Charlie Roberts (媒体 艺术 和 技术 ) 


学 科 主 任 : JoAnn Kuchera-Morin 教 授 和 Marcos Novak 教 授 (媒体 
艺术 和 技术 ) 


在 Allobrain， 我 们 罕 越 了 人 类 大 脑 皮 层 ( 见 图 17-3) 。 使 用 功能 性 
位 共振 成 像 ((fRD 的 结构 化 组 件数 据 创 建 了 一 个 “大空 ”， 通过 它 遍 历 
探索 “世界 *。 原 始 数 据 将 大 脑 的 代谢 活动 密度 值 映射 到 了 大 脑 空间 的 
各 个 网 格 内 ;， 可 视 化 包含 数据 集 的 两 个 “等 值 面 *( (iosurface)， 该 等 值 
面 是 根据 fMRI 扫描 得 到 的 大 脑 组 织 的 密度 来 选择 的 。 (等 值 面 是 由 在 
某 一 个 维度 取 值 相同 的 点 构成 的 三 维 等 高 线 。) 在 Allobrain 这 个 “ 世 
TIE, “搜索 媒介 ”( (sarch agenb 通 过 自动 导航 的 方式 挖掘 出 数据 ， 在 





空间 上 和 视觉 上 展示 出 来 ， 然 后 对 兴趣 区 域 进 行 聚 类 ， 并 通过 音乐 通 
知 我 们 。“ 漫 步 者 媒介 ”( (Wnderer agenD ， 对 特定 大 脑 区 域 颜 色 编 码 ， 
随机 访问 数据 ， 查 找 高 浓度 的 血液 密度 。“ 漫 步 者 媒介 ”还 可 以 接收 命 
令 ， 发 送 结果 到 屏幕 中 心 ， 而 且 通 过 音乐 表示 血液 密度 等 级 ， 音 调 越 
高 血液 密度 越 高 。 











想象 那些 不 仅 适 合 于 医疗 诊断 而 且 适 合 于 认 知 和 感知 的 心理 研究 
的 应 用 : Allobrain 在 单个 视图 中 融合 很 多 维度 的 信息 的 方式 ， 有 助 于 尽 
时 发 现 细 胞 素 乱 ， 也 有 益 于 理解 大 脑 是 如 何 工 作 的 。 实 际 上 ， 视 觉 乙 
术 家 兼 跨 领域 建筑 师 Marcos Novak 一 一 Allobrain 世 界 及 大 脑 之 父 一 一 构 
想 出 该 项 目 正 是 为 了 研究 审美 的 神经 学 基础 。 他 对 于 上 自己 的 工作 有 如 
下 描述 : 














当 我 们 说 某 些 事物 是 “美丽 的 ?时 ， 大 脑 的 哪些 部 分 参与 了 该 评 
佑 ， 它 们 是 如 何 参与 的 ? AACR HS EMMA TH al, W 
完 “ 美 ”的 更 好 的 方法 可 能 是 专门 研究 仅 有 一 个 或 者 几 个 实例 组 成 的 孝 
闭 系 统 ， 尽 可 能 深入 地 了 解 这 些 实例 ， 然 后 确定 在 该 实例 上 的 特征 是 
否 可 以 泛 化 到 其 他 事物 。 





特别 地 ， 这 项 工作 旨 在 构建 一 种 情景 ， 在 该 情景 中 ， 绝 大 多 数 使 
事物 “美丽 ”的 元 素 都 可 以 调查 。 具 体 如 下 : 








图 17-3: Allobrain 的 内 部 图 ( 见 彩 图 133) 


:这 项 工作 是 否 被 评 为 “美丽 ”。 
其 生成 方法 和 机 制 。 
.工作 的 创作 者 、 鉴 定员 和 调查 员 。 


此 外 ， 我 们 的 目标 〈 科 学 上 和 艺术 上 ) 是 创建 一 条 反馈 回路 ， 在 
该 回路 中 ， 艺 术 影响 大 脑 ， 而 大 脑 生 成 新 的 数据 ， 这 些 新 数据 创建 新 
艺术 ， 而 艺术 又 反 过 来 影响 大 脑 ， 而 大 脑 又 生成 新 数据 ， 如 此 反复 循 
环 。 


为 了 创建 该 过 程 ， 我 实现 了 一 个 生成 算法 ， 它 可 以 生成 我 本 身 无 
法 具体 给 出 的 激发 因子 ( (simuli)， 而 这 些 因 子 来 源 于 我 对 “美的 反应 
(视觉 上 和 空间 构成 上 ) 。 激 发 因子 包含 以 下 任意 一 种 : 1) 交互 式 的 / 
生成 的 移动 /变化 的 图 像 ，2) 该 图 像 的 记录 视频 ， 可 以 使 用 fMRI 成 像 
机 重 放 。fMRI 成 像 机 给 我 播放 了 这 个 视频 (我 之 前 从 未 见 过 ) 。 观 看 
视频 的 过 程 中 ， 每 当 过 到 在 我 看 来 非常 美丽 的 场景 时 ， 我 束 点 击 一 下 
按钮 。 对 按钮 的 总 击 动作 会 被 计时 ， 因 此 ， 借 助 时 间 束 可 以 将 点 击 动 
作 和 那 一 瞬间 的 大 脑 活动 关联 起 来 。fMRI 成 像 机 的 数据 被 转换 成 一 种 
沉浸 式 的 环境 或 着 说 “世界 *”。 这 一 过 程 可 能 引发 两 种 可 能 ， 从 科学 角 
度 看 ， 这 种 转换 使 得 结构 化 的 和 功能 上 的 数据 能 够 以 常规 情况 下 不 可 
能 的 可 视 化 方式 来 查看 。 从 艺术 角度 看 ， 它 提出 了 皆 新 的 艺术 形式 ， 
在 该 形式 中 ， 大 脑 (以 及 思想 ) 生成 世界 ， 而 世界 改变 思想 ， 思 想 又 
生成 新 的 世界 ， 如 此 反复 。 在 这 两 种 情况 中 ， 都 可 以 构建 反馈 回路 ， 
在 该 回路 中 ， 用 户 的 反应 有 助 于 生成 激发 因子 ， 该 因子 又 会 激发 反 
应 ， 从 而 放大 了 效 末 影响 。 








目前 ，Allobrain 揭 示 思 想 的 一 个 静态 快照 。 随 着 项 目的 推进 ， 具 有 
实时 交互 功 能 的 核 位 共振 成 像 效 据 将 使 研究 人 员 能 够 沉浸 在 目 己 的 想 
法 中 ， 观 察 如 Novak 所 描述 的 转换 和 变化 。 大 脑 将 感知 世界 ， 并 通过 其 
感知 改造 世界 。 


人 工 自然 


Haru Ji,Graham Wakefield (媒体 艺术 和 技术 ) 
http://artificialnature.mat.ucsb.edu 


现在 我 们 将 话题 从 原始 的 生物 数据 切换 到 作为 生命 之 本 的 过 程 和 
系统 。“ 人 工 自然 *( (Atificial Nature) 是 一 门 跨 学 科 的 研究 项 目 ， 是 一 种 
受 生物 启发 的 虚拟 艺术 装置 ， 其 基础 是 从 系统 生物 学 、 人 工 生命 、 复 
杂 性 科学 中 演化 而 出 的 生成 模型 而 不 是 经 验 数 据 。 人 工 自然 的 计算 世 
界 是 一 个 生态 系统 ， 由 在 动态 环境 中 交互 的 有 机 体 组 成 ， 观 众 可 以 和 
这 些 有 机 体 进 行 交 互 。 





环境 是 基于 流体 动力 学 的 空间 域 。 流 消 于 其 中 的 简单 粒子 流 具有 
不 同 的 营养 类 型 (色调 ) 和 能 量 水 平 (亮度 ) ， 彼 此 互动 交互 。 这 些 
粒子 为 生物 体 提供 代谢 燃料 ， 可 以 作为 独立 的 媒介 。 这 两 种 营养 物质 
的 摄 入 和 代谢 废物 的 处 理 都 征 生 存 和 党 殖 的 必要 条 件 。 





生物 体 的 外 观 和 目 主 活动 是 由 对 其 本 号 所 处 的 位 置 (空间 上 和 历 
史上 ) 的 遗传 描述 的 解释 决定 的 。 举 个 例子 ， 积 累 足 够 的 能 量 可 以 触 
发 一 些 生物 体 通过 无 性 繁殖 生成 下 一 代 ， 只 存在 很 小 突变 概率 。 这 些 
生物 体 的 形状 是 基于 Boy 曲 面 方程 ( (By 1901) ， 并 随 着 生命 周期 不 断 
变化 来 表示 逐步 的 增长 和 发 展 ， 而 健康 还 是 使 用 不 透明 度 来 表示 。 











摄食 、 繁 殖 和 探测 邻居 等 活动 都 伴随 着 各 种 不 同 的 啊 嗽 般 的 歌 


曲 ， 它 在 AlloSphere 是 完全 空间 化 的 。 这 些 声 音 音质 明朗 、 短 暂 而 富 合 
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观众 可 以 使 用 “六 度 上 自由 ”( (sx-degrees-of-freedom) fii 9 H ` 
无 止境 地 探索 世界 并 间接 地 影响 世界 ， 正 如 他 们 儿 时 在 溪流 或 沙 坑 玩 
时 ， 不 时 地 “ 激 起 千 层 浪 *。 通 过 摄像 头 、 妥 元 风 以 及 时 不 时 的 触摸 收 
集 到 的 感官 数据 开始 成 为 生物 体 必 须 适 应 的 环境 条 件 。 流 体 的 消 流 也 
反 过 来 影响 观众 的 探索 。 整 个 生态 系统 ， 包 括 观众 本 身 ， 生 成 了 连续 
模式 的 “自然 美 ”( 见 图 17-4 和 图 17-5) 











图 17-4: 在 人 工 自然 流体 领域 生成 和 分 散 的 人 工 营养 成 分 (第 1 版 
本 : “EREA”, DL A134) 





Al 17-5: 在 人 工 自然 领域 生长 和 交互 的 人 造 生 物体 〈 第 2 版 本 : “流体 
空间 ”， 见 彩 图 135) 
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人 工 目 然 作为 一 种 虚拟 化 艺术 作品 ， 很 目 然 地 回答 了 这 个 问题 。 人 工 
目 然 古 在 一 个 兰 代 性 环境 中 的 全 新 的 体验 一 一 一 个 展现 无 限 可 能 的 世 
界 。 人 工 目 然 的 开放 性 本 质 正 是 基于 人 类 的 复杂 的 目 适 应 系统 。 这 些 





基于 媒介 的 技术 给 目 己 市 来 了 真实 模拟 ， 而 多 模式 交互 使 观众 也 融入 
了 生态 系统 网 络 中 。 


人 工 目 然 本 身 是 一 个 有 较 大 发 展 的 项 目 。 随 着 我 们 在 其 中 的 入 更 
多 的 维度 和 关系 ， 新 的 模式 潜能 、 结 构 、 酒 义 和 美 丽 开 始 出 现 。 


Basak Alper,Wesley Smith,Lance Putnam 和 Charlie Roberts (媒体 艺 
术 和 技术 ) ，Anderson Janotti (材料 研究 实验 室 ) 


学 科 主 任 : JoAnn Kuchera-Morin 教 授 (媒体 艺术 和 技术 ) ，Chris 
G.Van de Walle 教 授 (材料 研究 实验 室 ) 


谈 完 生物 和 宏观 世界 ， 我 们 现在 开始 探讨 原 了 于 世界 以 及 无 污染 科 
技 的 新 材料 化 合 物 一 一 多 中 心 氢 键 。 它 是 制造 透明 太阳 能 电池 和 低 成 
本 显示 设备 的 非常 关键 的 一 环 。 通 和 情况 下 ， 乞 和 其 他 元 和 陛 一 起 形成 
共 价 键 〈 指 的 是 所 和 其 他 元 素 共 享 一 对 电子 一 一 因为 氨 只 有 一 个 电 
子 ， 它 每 次 只 能 形成 一 对 共 价 键 ) ， 但 是 在 氧化 锌 唱 体 中 ， 它 和 4 个 和 锌 
原子 形成 共 价 键 ， 生 成 一 个 四 面体 键 结构 。 


加 州 大 学 圣 巴巴 拉 分 校 ( 〈USB) 固 态 照明 和 能 源 中 心材 料 科 学 研究 
所 的 同事 发 现 了 这 种 独特 的 氧 键 结构， 希望 由 我 们 以 他 们 现 有 的 工具 
所 无 法 做 到 的 方式 来 从 视觉 上 和 听觉 上 展示 他 们 的 模拟 数据 。 我 们 拿 
到 的 数据 是 气 键 晶体 的 三 维 蝇 格 的 静电 电荷 密度 。 对 这 类 “ 体 数 据 
( (vlumetric data)” 中 进行 可 视 化 具有 很 大 挑战 ， 因 为 无 法 通过 目 然 途 
径 看 到 坚实 的 固体 内 部 。 





可 视 化 体 数据 的 一 种 通用 的 方法 是 绘制 等 值 面 来 显示 内 部 曲率 。 
对 电荷 密度 应 用 等 值 面 ， 刍 结构 形状 更 加 清晰 易 见 ， 这 种 方式 和 在 地 
图 上 使 用 等 高 线 来 表示 不 同 高 度 变 化 类 似 。 在 局 部 数据 域 中 查找 最 大 
值 /最 小 值 对 于 科学 家 也 是 一 个 非常 重要 的 功能 ， 它 能 够 帮助 人 们 识别 
出 键 中 的 临界 区 。 我 们 通过 使 用 樟 度 场 描 述 体 数据 域 的 方式 解决 了 这 
个 问题 。 刚 开始 ， 我 们 没有 得 到 任何 结 采 ， 因 为 数据 抽样 时 所 用 的 采 
样 间 隅 远大 于 查找 区 域 。 我 们 解释 了 可 视 化 算法 的 工作 方式 ， 从 而 说 
服 了 科学 家 们 生成 分 辨 率 更 高 的 数据 。 得 到 高 分 辨 率 的 数据 之 后 ， 在 
梯度 场 绘 制 零 值 等 值 面 成 功 地 说 明了 局 部 极 大 值 / 极 小 值 域 。 























为 了 找 出 更 多 的 局 部 极 大 值 / 极 小 值 域 形状 ， 我 们 使 用 了 称 为 “ 流 
线 ”( (sreamline) 的 可 视 化 技术 ， 它 生成 沿 着 向 量 场 流动 的 曲线 。 我 们 
将 流 线 的 起 点 定 在 所 原子 中 心 附近 ， 人 允许 它 顺 着 梯度 场 递减 的 方向 同 
外 流出 ， 使 用 色调 表示 运动 速度 ， 红 色 代表 快 ， 绿 色 代 表 慢 。 虽 然 我 
们 的 科学 家 伙伴 最 初 觉得 流 线 很 怪异 ， 但 是 最 终 流 线 证 明了 其 有 效 
性 ， 写 们 能 够 在 键 结构 的 临 用 区 融合 在 一 起 。 














我 们 对 标准 可 视 化 工具 进行 了 扩展 ， 增 加 了 可 视 化 模式 的 选择 功 
能 和 在 单 张 视 图 内 县 加 选 定 的 多 种 可 视 化 的 功能 ( 见 图 17-6) 。 在 一 张 
视图 中 包含 不 同 层次 的 信息 需要 绘制 一 张 图 ， 能 够 最 大 限度 地 降低 混 
乱 和 模糊 。 为 此 ， 我 们 使 用 了 一 种 目 定 义 的 照明 算法 ， 它 减少 照明 扩 
散 从 而 突出 等 值 面 的 曲率 。 我 们 对 透明 和 线 框 泻 染 进行 了 混合 ， 诚 少 





存在 多 个 透明 区 域 的 错觉 。 我 们 发 现 流 线 和 等 值 面 是 自然 的 视觉 补 
充 ， 因 为 它们 能 够 在 垂直 方向 上 显示 信息 。 同 时 ， 在 视觉 上 看 ， 显 示 
流 线 和 等 值 面 要 比 显示 多 层 等 值 面 的 效果 更 好 ， 因 为 流 线 和 等 值 面 在 
视觉 上 很 容易 区 分 。 

















图 17-6: 包含 4 个 锌 原子 的 四 面体 氢 键 的 特写 图 ( 监 色 ， 见 彩 图 136) 


除了 可 视 化 ， 我 们 使 用 空间 音频 来 定位 品 体 中 键 的 位 置 和 用 户 的 
位 置 〈 见 图 17-7) 。 为 了 给 原子 添加 音调 特征 ， 我 们 按照 10 个 八 度 音 
Bh, AREAL > PEAR ROR Val ea, AES > ERA 
Bt 〈 相 对 电磁 辐射 ) 。 





图 17-7: 沉浸 于 气 链 中 的 研究 人 员 〈 见 彩 图 137) 


由 于 数据 具有 时 间 不 变性 和 三 维特 征 ， 因 此 如 何 为 它 配音 是 一 个 
很 大 的 挑战 。 我 们 提出 的 一 个 解决 方案 是 扫描 参数 曲线 的 密度 场 。 我 
们 使 用 Lissajous 曲 线 二 ， 因 为 它 展 现 出 高 维度 的 空间 对 称 性 和 平 请 
性 ， 最 大 限度 地 减少 首 色 失真 。 虽 然 该 技术 不 具备 视觉 补充 ， 但 它 生 
成 的 特征 化 音调 有 助 于 定位 氨 键 ， 从 而 产生 更 完整 的 多 模式 体验 。 





[1] 在 医药 学 应 用 中 ， 通 过 MRIT 或 CT 得 到 的 数据 称 为 体 数据 。 
[2] Lissajous 曲 线 ， 其 效 学 定义 是 指 两 条 治 痢 互相 垂直 方 同 的 正弦 振动 
所 合成 的 轨迹 。 





Lance Putnam 和 Charlie Roberts (媒体 艺术 和 技术 ) 


学 科 主 任 : Luca Peliti 教 授 ( (KVli 理 论 物理 研究 所 ) 和 JoAnn 
Kuchera-Morin 教 授 (媒体 艺术 和 技术 ) 


现在 ， 我 们 的 话题 从 原子 品 体 切换 到 更 小 的 空间 竺 个 氧 原子 电子 
云 。 人 们 对 氢 原 子 轨道 的 形状 有 很 多 了 解 ， 物 理学 家 可 以 轻而易举 地 
在 大 脑 中 搞 绘 出 它们 。 然而 ， 当 两 个 或 者 更 多 随时 间 变 化 的 轨道 琶 加 
后 产生 的 电子 云 将 很 复杂 而 且 很 难 通 过 个 别 公式 分 析 。 此 外 ， 数 学 公 
式 和 前 人 态 图 片 无 法 捕捉 复杂 的 、 随 时 空 演 化 的 动态 特征 。 











我 们 的 这 项 工作 旨 在 通过 电子 波 函 数 的 交互 式 可 视 化 和 可 听 化 ， 
创建 < 类 所 ”原子 的 多 模式 体验 。 我 们 把 原子 轨道 模拟 成 随时 间 变 化 的 
Schr6dinger 方 程 的 解 ， 包 含 Coulomb 的 静电 力 法 所 描述 的 球状 静态 势 。 
在 这 个 模型 中 ， 原 子 核 和 电子 之 间 的 关系 类 似 于 装 满 液 体 (电子 ) 的 
i 原子核) ， 其 区 别 在 于 液体 可 以 包含 很 多 不 同 的 静止 形状 ， 而 且 
可 以 延伸 到 砚 外 面 。 为 了 计算 ， 单 轨道 的 时 间 不 变 结构 预先 计算 好 并 
存储 在 三 维 晶 体 中 ;然后 ， 在 模拟 过 程 中 ， 它 们 分 别 独 目 进化 ， 而 且 
空间 上 混合 在 一 起 。 我 们 对 一 些 预 设 置 的 轨道 车 加 进行 编程 ， 观 察 如 
光子 放射 和 吸收 的 动态 行为 特征 。 
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可 以 更 易于 查看 波 函 数 的 全 局 外 形 ， 但 是 难以 碍 看 其 内 部 、 更 局 部 的 
结构 。 为 了 解决 这 个 问题 ， 我 们 在 立体 泻 染 时 把 媒介 集合 县 加 起 来 ， 
这 些 媒介 在 流 函 数 中 沿 铸 不 同 的 流 运 动 。 通 过 这 种 方式 ， 我 们 可 以 同 
时 理解 云 的 全 局 和 局 部 结构 。 我 们 发 现 彩色 线条 在 映射 维度 数量 、 可 
视 化 复杂 性 、 计 算 高 效 性 之 间 提 供 了 一 种 合理 的 平衡 〈 见 图 17-8) 。 彩 
色 线 条 媒介 给 我 们 提供 了 3 种 色彩 的 内 部 维度 、4 种 方位 的 空间 维度 以 
及 可 以 用 于 映射 的 长 度 。 我 们 使 用 色彩 来 区 分 不 同 的 流 和 方位 类 型 来 
表示 方向 。 此 外 ， 线 条 的 亮度 和 长 度 不 同 ， 这 样 可 以 平 请 地 把 媒介 从 
展现 中 痰 入 或 淡出 。 











图 17-8: 氢 原 子 的 光 放 射 配 置 ( 见 彩 图 138) 


我 们 还 想 使 用 声音 来 通知 特定 事件 类 型 一 一 比如 茶 些 形状 类 型 的 
出 现 和 消融 一 一 只 在 云 内 出 现 。 为 了 做 到 这 点 ， 我 们 使 用 了 一 种 称 为 
扫描 合成 ( (sanned synthesis) 的 合成 技术 的 变 体 。 我 们 以 类 似 于 录 首 带 
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通过 改变 扫描 速率 ， 我 们 可 以 改变 声音 的 音调 。 音 调 低 的 用 于 显示 局 
部 形状 变化 效果 最 好 。 而 音调 高 的 用 于 表示 全 局 特征 效果 最 好 。 我 们 
还 发 现 给 不 同类 型 的 媒介 分 配 不 同 的 音调 类 型 《对 八 度 音调 进行 分 
Hl) 很 有 效 ， 这 样 可 以 在 听力 上 互相 区 分 开 。 这 种 扫描 方法 可 以 成 功 
地 提醒 我 们 媒介 聚 类 何 时 以 及 在 何 处 形成 奇异 点 或 吸引 域 ， 但 是 天 于 
等 定形 状 的 形成 的 通知 的 效 末 不 太 好 。 更 全 面 系统 地 表示 系统 的 方法 
不 是 增加 单一 方式 ， 而 是 采取 多 模式 方法 ， 使 得 视觉 上 可 以 显示 整体 
形状 ,听觉 上 可 以 感知 局 部 结构 随 着 时 间 的 变化 。 























实现 该 展现 的 一 个 意 想 不 到 的 结果 是 ， 波 函数 模式 从 单一 轨道 模 
式 转变 成 到 混合 模式 中 时 展现 出 来 的 复 洒 性 和 丰富 性 ， 如 图 17-9 所 示 。 
出 现 的 组 成 模式 和 部 分 没有 明显 的 关系 ， 从 数学 方程 上 看 一 点 都 不 明 
显 。 我 们 发 现 作 为 简单 且 众 所 周知 的 物理 机 制 的 波 的 干扰 ， 在 思考 创 
建 复杂 模式 和 新兴 行为 时 ， 可 以 作为 强大 的 概念 。 








17-9: 氢 原 子 的 高 阶 轨道 混合 ( 见 彩 图 139) 


Lance Putnam (媒体 艺术 和 技术 ) 


学 科 主 任 : Luca Peliti 教 授 ( (KVli 理 论 物理 研究 所 ) 和 JoAnn 
Kuchera-Morin 教 授 (媒体 艺术 和 技术 ) 





在 这 个 项 目 中 ， 我 们 期 望 使 用 更 完整 的 包含 日 旋 因 子 的 物理 模型 
对 之 前 的 氢 原 子 项 目 进 行 扩展 。 我 们 还 布 望 从 原始 的 对 波 函 数 空间 的 
抽样 提升 到 更 高 的 空间 分 辩 率 。 我 们 决定 不 再 预 完 计算 和 存储 轨道 ， 
而 是 实时 计算 一 切 ， 这 样 我 们 将 能 够 得 到 空间 中 所 有 扩 的 波 函 数 的 准 
确 值 。 从 这 个 意义 上 说 ， 波 画 数 的 计算 表示 形式 从 晶体 值 变 成 了 位 置 
函数 。 这 种 新 的 方法 也 使 我 们 有 机 会 以 新 的 视角 来 观察 媒介 作为 通用 
目的 的 可 视 化 和 可 听 化 工具 时 的 效 琳 。 这 些 媒介 不 仅 能 够 显示 波 函 数 
通过 个 体 运动 产生 的 流 ， 而 且 能 够 表示 其 他 一 些 状态 ， 如 其 振荡 阶 
段 。 此 外 ， 媒 介 上 的 软件 程序 可 以 以 类 似 合奏 的 方式 来 创建 更 平滑 、 
更 紧密 连接 的 形状 。 


我 们 开始 通过 对 网 格 线条 上 的 媒介 进行 定位， 然后 基于 瓜 层 的 波 
函数 振幅 来 修改 方向 和 长 度 。 虽 然 这 种 方式 使 我 们 能 够 很 好 地 理解 全 
局 特征 ， 但 是 我 们 发 现 由 于 空间 造型 ( (Miré 模 式 ) 在 空间 上 的 规则 定 
位 ， 导 致 在 视觉 上 看 起 来 相当 令 人 困扰 且 具 有 误导 性 。 为 了 避免 这 些 
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法 可 以 很 好 地 消除 之 前 的 干扰 性 ， 但 是 它 又 引出 了 更 严重 和 基础 的 问 
题 。 首 匈 ， 我 们 发 现 难以 将 所 有 媒介 从 原来 各 目的 线条 形状 融合 为 一 
个 连贯 的 线条 。 其 次 ， 我 们 发 现 把 媒介 均匀 分 布 在 三 维 空间 中 并 不 能 
生成 自然 的 发 声 方法 。 虽 然 我 们 在 之 前 的 项 目 中 〈 即 关于 氢 键 项 目 ) 
已 经 发 现 可 视 化 和 可 听 化 可 以 独立 使 用 而 互 不 影响 ， 但 是 听觉 的 可 听 
化 和 视觉 的 可 视 化 表现 的 基础 连通 性 对 于 理解 场景 是 非常 重要 的 。 








我 们 解决 这 些 连通 性 问题 的 方法 是 把 这 些 线性 媒介 组 成 环 状 ， 通 
过 弹 筑 使 这 些 媒介 相互 连接 。 这 种 方式 可 以 生成 一 条 弹性 带子 ， 它 保 
持 媒 介 之 间 的 平滑 连接 ， 而 仍然 能 够 在 空间 中 自由 运动 ， 并 显示 被 衡 
量 的 域 的 本 地 属性 。 把 环 的 宽度 映射 为 概率 密度 ， 宽 带 的 大 幅 的 上 升 
代表 在 该 位 置 发 现 电子 的 概率 很 高 ( 见 图 17-10) 。 此 外 ， 环 在 用 于 显 
示 波 函 数 的 状态 时 也 能 工作 良好 ， 波 函数 在 整个 空间 上 的 分 布 更 为 广 
y 〈 见 图 17-11) ° 

















图 17-11: 自 旋 的 氢 原 子 的 外 壳 混 合 ( 见 彩 图 141) 


平滑 的 环 可 以 为 可 听 化 生成 理想 的 外 形 来 扫 摘 媒介 ， 正 如 无 目 旋 
原子 那样 。 在 视觉 上 ， 环 状 为 形状 的 透明 性 和 连贯 性 以 及 全 局 和 局 部 
的 属性 描述 之 间 提 供 民 好 的 权衡 。 
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Dennis Adderton 和 Lance Putnam (媒体 艺术 和 技术 ) , Jesse 
Berezovsky ( 自 旋 电子 学 和 量子 计算 中 心 ) 


学 科 主 任 : JoAnn Kuchera-Morin 教 授 (媒体 艺术 和 拉 术 ) 和 David 
Awschalom 教 授 ( 自 旋 电子 学 和 量子 计算 中 心 ) 











本 项 目的 目标 是 展示 一 个 电子 在 量子 点 中 旋转 时 的 连贯 的 旋 进 过 

程 或 者 旋转 过 程 中 的 变化 。 为 了 找 出 在 纳米 级 设备 上 衡量 量子 连贯 性 
的 最 合适 的 机 制 ， 我 们 参观 了 UCSB 物 理 系 的 自 旋 学 实验 室 ， 以 便 了 
解 目 旋 显 微 镜 学 。 这 是 一 个 光学 实验 室 ， 这 里 有 一 个 速度 非常 快 的 激 
光 脉 冲 射 呵 半导体 量子 设备 。 脉 冲 的 偏振 作用 能 够 诱导 和 单个 电子 在 量 
子 点 中 目 旋 生成 连贯 的 旋 进 。 后 续 的 脉冲 可 以 衡量 电子 在 量子 点 内 的 
旋转 偏振 ， 从 而 捕获 旋 进 过 程 图 。 通 过 这 种 测量 方式 ， 可 以 量化 设备 
的 量子 连贯 性 特征 豪 减 时 间 。 量 子 态 的 非 连贯 性 标志 了 从 量子 态 到 经 
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为 了 通过 可 上 听 化 来 展示 实验 现象 ， 我 们 把 速度 降低 了 100 万 倍 。 这 
使 我 们 能 够 听 到 电子 的 发 声 以 及 脉冲 激光 的 喻 喻 声 。 为 了 对 目 旋 进 现 
象 进行 可 视 化 ， 我 们 在 Bloch 球 体 上 绘制 了 相位 角 ， 这 对 于 物理 学 家 来 


说 是 标准 的 图 形 化 工具 。 我 们 根据 一 篇 论文 的 实验 中 的 一 个 简单 公式 
( (Brezovsky 2008) 生成 了 三 维 动态 图 ( 见 图 17-12) 





17-12: 多 角度 显示 自 旋 进 的 Bloch 球 体 ( 见 彩 图 142) 





虽然 初步 的 测试 激发 了 我 们 的 激情 ， 但 是 马上 束 发 现 了 该 模型 的 
一 个 过 于 简单 的 方面 ， 在 开始 的 数据 集中 这 一 点 还 不 明显 。 虽 然 在 视 
觉 上 生成 的 是 有 趣 的 球形 模式 ， 但 是 其 时 间 组 件 皇 显著 的 正弦 振动 ， 
因此 产生 的 声音 很 快 束 开 始 让 人 人 厌烦。 显然 ， 要 想 融 入 到 量子 世界 
中 ， 我 们 需要 一 个 更 复杂 的 系统 。 














为 了 发 挥 感官 作用 ， 我 们 需要 一 个 更 完整 的 目 然 量 子 力学 模型 ， 
而 不 是 实验 的 位 化 模型 。 表 示 理 论 模 型 需要 进行 翻译 解释 ， 使 用 听觉 
和 视觉 进行 类 比 。 作 为 一 名 艺术 家 ， 需 要 先 构 建 一 个 乞 术 品 ， 这 样 可 
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可 以 作为 哲学 假设 的 基础 ， 美 丽 的 可 视 化 是 连接 到 可 以 创造 和 打破 对 
称 的 复杂 的 数学 系统 的 可 视 化 和 可 听 化 。 








结束 语 


在 AlloSphere 空 间 中 ， 可 视 化 转化 成 美丽 的 多 模式 虚拟 展现 、 转 
换 和 创造 ， 最 终生 成 一 个 独特 领域 的 演化 过 程 。 这 个 新 的 领域 融合 了 
亏 术 和 科学 的 不 同 的 标准 和 指标 一 一 艺术 负责 推测 、 生 成 和 转换 ， 科 
负责 模型 /理论 的 构建 和 验证 。 随 着 我 们 的 研究 的 进一步 推进 ， 产 生 
一 种 新 的 、“ 经 典 ” 的 思考 方式 ， 它 能 够 把 科学 和 艺术 结合 到 新 的 环 
中 ;在 这 个 新 环境 中 ， 新 艺术 和 新 技术 的 产生 是 相辅相成 的 。 随 着 
个 新兴 领域 和 计算 张 动 的 媒介 的 发 展 ， 忆 术 家 、 科 学 家 和 工程 师 之 
间 的 差别 开始 消失 ， 我 们 意识 到 我 们 都 是 工程 师 、 科 学 家 和 艺术 家 
一 一 一 起 设计 、 分 析 和 创造 。 
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第 18 章 ” 解 谢 可 视 化 : 真正 的 黄金 标准 Anders 


Persson 





本 章 的 主题 对 于 致力 于 医学 信息 可 视 化 领域 的 人 们 而 言 格外 重 
要 。 新 兴 的 技术 正在 使 得 可 视 化 表现 和 交互 技术 成 为 可 能 。 可 视 化 技 
术 充 分 利用 了 人 类 视觉 到 心灵 间 的 高 市 宽 ， 使 用 户 可 以 同时 观察 、 探 
索 、 了 解 并 验证 大 量 的 复杂 信息 。 




















今天 ， 临 床 诊断 和 医学 研究 的 一 个 显著 特征 是 信息 量变 得 无 比 庞 
大 ， 特 别 是 图 像 形 式 的 信息 。 需 要 医生 人 处理 的 图 片 越 来 越 多 ( 数 百 或 
上 和 于 而 不 是 几 十 个 ) ， 而 且 是 越 来 越 复杂 、 维 度 越 来 越 高 的 信息 (FI 
量 或 张 量 值 ， 而 不 再 是 标量 值 ， 是 直接 和 解剖 面 对 应 的 立体 图 像 ， 而 
不 是 平面 图 像 ) 。 然 而 ， 目 前 通常 还 只 是 使 用 简单 的 二 维 设备 如 传统 
的 显示 器 来 一 张 一 张 地 检查 图 像 流 。 当 前 的 诅 贷 已 经 不 再 十 数据 采 
集 ， 未 来 的 发 展 将 是 开发 合适 的 方法 来 处 理 和 分 析 信 息 ， 并 且 使 用 户 
可 以 理解 这 些 信息 。 其 中 最 重要 的 一 个 问题 是 工作 流 。 从 数据 采集 到 
临床 医生 收 到 诊断 信息 这 一 过 程 必须 优化 ， 而 且 新 的 方法 的 效果 必须 
是 可 验证 的 。 
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常情 况 下 ， 依 据 病人 进行 效果 验证 存在 局 限 性 。 在 某 些 情况 
T AS 


病人 还 活着 ， 殊 无 法 知道 收集 到 的 信息 是 否 准 确 ; 缺失 了 真 


正 的 黄金 标准 。 解 剖 成 像 有 可 能 可 以 解决 这 个 问题 。 


从 19 世 纪 中 时 引入 尸检 的 方法 以 来 ， 迄 今 为 止 一 直 没 有 发 生 过 重 
大 的 技术 变 音 。 然 而 ， 痢 的 放射 成 像 方法 ， 如 多 层 电脑 断层 扫描 
( (MCT) 和 核磁 共振 成 像 ( (MD， 今 后 有 可 能 成 为 临床 和 法 医 病理 学 
的 主要 诊断 工具 。 鉴 于 对 新 的 成 像 技 术 和 保健 措施 的 校 验 能 力 ， 解 剖 
可 视 化 可 能 会 成 为 未 来 改进 人 体 健 康 的 重要 途径 。 
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尸检 过 程 的 重要 性 在 于 其 死亡 原因 可 以 被 人 们 所 了 解 。 对 于 法 
医 ， 尸检 可 以 提供 至 天 重要 的 信息 ， 而 且 可 以 为 刑事 调查 提供 指导 。 
在 过 去 几 年 ， 尸 检 的 频率 不 断 下 降 ， 这 成 为 一 个 非常 严重 的 问题 。 





尸检 工作 流 中 一 个 最 近 新 增 的 功能 使 对 尸体 解剖 成 像 成 为 可 能 

一 一 以 3D 形 式 显示 ， 也 称 为 虚拟 尸检 ( (vrtual autopsy,VA) 一 一 使 用 从 
尸体 扫描 的 MDCT 或 MRI 数 据 ， 而 且 采 用 的 是 直接 立体 泻 染 ( (DR) 的 

三 维 技术 。 虚 拟 尸 检 的 发 展 基础 在 于 现代 影像 学 可 以 生成 大 的 、 可 精 
确 到 这 米 以 下 的 高 质量 的 数据 集 。 这 些 三 维 数据 集 的 交互 可 视 化 可 以 
促进 有 价值 的 认 知 ， 而 且 促 进 无 损伤 性 的 诊断 过 程 。 但 是 ， 对 数据 集 
进行 高 效 的 处 理 和 分 析 也 会 带 来 很 多 问题 。 举 个 例子 ， 在 解剖 尸体 的 
CT 成 像 中 ， 由 于 不 局 限于 每 个 病人 所 能 承受 的 辐射 ， 数 据 集 可 以 生成 











非常 高 清 的 图 像 ， 当 前 的 资料 检索 和 交互 可 视 化 系统 难以 处 理 这 些 
像 ， 尤 其 对 于 全 里 扫 面 生 成 的 图 像 。 





一 些 研 究 证 明了 虚拟 解剖 在 法 医 调 查 中 的 巨大 潜力 。 本 章 将 探讨 
虚拟 解剖 作用 不 断 增 加 的 一 些 原 因 。 


对 法 医 工 作 的 影响 


在 检查 尸体 时 需要 评估 的 主要 问题 是 死亡 的 原因 和 方式 、 遭 受 的 
伤害 的 严重 程度 以 及 基于 这 些 实现 法 医 重建 的 可 能 性 。 法 医 尸 检 的 结 
东 文 件 主要 有 基于 几 个 世纪 以 来 一 直 使 用 的 尸检 技术 和 协议 。 尸 检 的 
主要 工具 是 手术 思 ， 语 言 描述 和 照片 。 这 种 方法 的 主要 缺点 在 于 文档 
记录 过 于 随意 、 主 观 和 对 观察 者 过 于 依赖 。 没 有 记录 的 任何 发 现 将 随 
着 尸体 被 送 到 火葬 场 而 被 无 可 挽回 地 销毁 。 当 代 层 析 ( (coss-sectional) 
成 像 技术 可 以 克服 这 些 缺 点 ， 因 为 它们 提供 了 真实 维度 的 发 现 结果 的 
数据 集 ， 而 且 可 以 长 期 存储 〈 见 图 18-1 和 图 18-2) 。 数 字 化 采集 的 数据 
可 以 在 任何 时 候 使 用 ， 也 可 以 发 送 给 其 他 专家 咨询 意见 。 














Al 18-1: 通过 计算 断层 扫描 ， 很 容易 查 出 身体 中 的 金属 物体 。 在 这 
HAY, AJF, (EMRE REC RA ( 见 





图 143) 








图 18-2: 这 个 图 像 说 明了 另 一 个 案件 中 的 死亡 原因 ， 受 害 人 被 染 刀 刺 
穿 心 脏 ( 见 彩 图 144) 





有 些 传统 的 尸检 方式 难以 发 现 的 信息 ， 通 过 全 身 计算 断层 扫描 可 
以 很 容易 发 现 ， 如 体内 的 空气 分 布 一 一 例如 气胸 、 心 包 积 气 、 血 流 
(空气 栓塞 ) 以 及 伤口 通道 ， 如 图 18-3 所 示 。 计 算 断 层 扫 描 对 于 查找 异 
物 如 金属 碎片 和 子弹 是 非常 有 用 的 ， 这 对 于 法 医 病理 学 家 也 是 至 关 重 
要 的 〈 见 图 18-4) ° 
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图 18-3: 获取 到 的 计算 断层 扫描 数据 可 以 通过 不 同 的 参数 设置 进行 交 
互 可 视 化 : 在 这 个 例子 中 ， 软 组 织 在 体内 左 侧 ， 空 气 分 布 在 体内 右 侧 
( 见 彩 图 145) 








Al 18-4: 通过 尸检 计算 断层 扫 摘 可 以 很 容易 对 短 枪 中 的 小 碎片 进行 可 
视 化 。 在 传统 的 尸检 中 ， 这 些 雄 片 很 难 甚至 不 可 能 说 发 现 ( 见 彩 图 
146) 


虚拟 尸检 流程 


瑞典 AAA Ò( (CIV) 和 瑞典 国家 
法 医学 委员 会 协作 开发 了 虚拟 尸检 流程 ， 它 已 是 用 于 法 医 工 作 的 常规 
程序 。 从 2003 年 以 来 就 一 直 使 用 该 方法 ， 而 且 到 目前 为 止 已 经 被 用 于 
300 个 案例 中 (主要 是 谋杀 ) 。 虚 拟 尸 检 的 使 用 经 验 表 明 全 方位 、 高 清 
地 数字 视频 录像 机 等 新 技术 在 刑事 调查 和 对 病人 的 诊断 中 有 着 非常 重 
要 的 作用 。 我 们 的 工作 重点 是 尸检 多 探头 计算 断层 扫描 ( (MCT) 的 全 许 
工作 流 ， 而 且 关 注 于 开发 新 的 可 以 对 全 身 数据 集 进 行 可 视 化 的 软件 ， 
而 之 前 只 能 通过 一 些 独立 的 模块 查看 并 且 只 有 很 有 限 的 交互 性 ( 见 图 
18-5 到 图 18-7) ° 























Al 18-5: 在 传统 的 尸检 完成 后 ， 束 不 可 能 重新 检查 了 。 当 尸体 被 送 到 
火葬 场 后 ， 没 有 记录 的 结 采 束 无 可 挽回 地 被 销毁 了 ( 见 彩 图 147) 





图 18-6: 把 计算 断层 扫描 或 /和 核磁 共振 添加 到 管道 ( (ppeline) 中 ， 可 
以 重 做 虚拟 尸检 。 任 何 时 候 有 新 的 疑问 时 ， 都 可 以 参考 数字 化 存储 的 
数据 ， 而 且 可 以 把 这 些 数 据 发 送 给 专家 咨询 意见 ( 见 彩 图 148) 

















盾 。 警 察 希 望 尽 可 能 快 地 完成 尸检 。 而 犯罪 调查 现场 人 员 希 望 在 尸检 

完成 之 前 结束 犯罪 现场 调查 。 己 体 成 像 解决 了 这 个 问题 。 对 尸体 计算 

呆 层 扫描 检查 的 初级 报告 使 得 有 可 能 把 尸体 保存 在 冷藏 室 中 ( 见 彩 图 
149) 








数据 采集 


在 瑞典 Linkoing 大 学 医学 图 像 科 学 与 可 视 化 中 心 对 传统 的 物理 尸检 
进行 扩展 ， 为 虚拟 尸检 添加 了 计算 断层 扫描 和 磁 共 振 成 像 。 在 绝 大 多 
数 情况 下 ， 法 医 来 到 案 发 现场 ， 监 督 对 受害 人 尸体 的 处 理 ， 尸 体 在 运 
送 到 法 医 部 门 前 ， 被 放置 到 一 个 密封 的 尸体 袋子 中 并 做 入 库 处 理 。 第 
二 天 早晨 ， 通 过 前 沿 技 术 SOMATOM 定 义 内 光 扫 描 器 ， 在 瑞典 Linkoing 
大 学 医学 图 像 科学 与 可 视 化 中 心 执 行 全 身 双 源 计算 断层 扫描 ( (DCT) ° 
目前 ， 同 时 使 用 单 能 模式 和 双 能 模式 进行 虚拟 尸检 的 案例 ， 如 图 18-8a 
和 b 所 示 。 在 选择 的 案例 中 ， 执 行 的 是 磁 共振 成 像 检 查 (使 用 荷兰 飞 利 
浦 医疗 系统 的 Achieva 1.5T 扫 描 器 ) 。 所 有 和 孩子 都 例 行 执行 磁 共 振 成 像 
检查 ， 因 为 比 起 DSCT， 如 图 18-9 所 示 ， 它 提供 超 强 的 大 脑 可 视 化 。 在 
整个 虚拟 尸检 过 程 中 ， 尸 体 一 直 是 在 密封 的 尸体 袋子 中 ， 这 样 可 以 确 
保 司法 鉴定 有 价值 的 技术 证 据 的 安全 性 ， 如 纤维 和 体液 ， 并 避免 污 
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图 18-8: a) 前 沿 领先 的 包含 双 能 可 能 性 的 双 能 计算 断层 扫描 器 ，b) 
核磁 共振 扫描 器 。 在 瑞典 Linkoing 大 学 医学 图 像 科 学 与 可 视 化 中 心 ， 这 
两 个 扫描 器 都 是 用 于 虚拟 尸检 〈 见 彩 图 150) 





图 18-9: 被 子弹 打 中 的 小 孩 的 双 能 计算 断层 扫描 。 注 意 对 子弹 和 子弹 
轨迹 的 出 色 的 可 视 化 。 易 于 在 法 庭 上 展示 ( 见 彩 图 151) 





计算 断层 扫描 ， 使 用 双 能 计算 断层 扫描 








拥有 以 不 同 能 量 同 时 运行 两 束 x 射线 的 双 能 计算 断层 扫描 ( (Dal 
energy CT,DECT) 可 以 获取 两 个 数据 集 ， 显 示 不 同 的 衰减 层次 。 双 能 计 
算 断 层 扫 描 可 以 得 到 计算 断层 扫描 中 的 关于 基础 化 学 成 分 的 额外 信 
已。 使 用 两 种 不 同 的 平均 照片 能 确定 康 普 顿 散 射 ( (Cmpton scattering) 











， 它 分 别 对 应 两 种 管 电压 (80kV#I140kV) ° HA, x AOU 
赖 能 量 。 例 如 ， 使 用 80kV 对 物理 进行 扫 搬 与 使 用 140kV 进 行 扫 揪 会 得 
到 不 同 的 衰减 结果。 该 物理 现象 可 以 用 于 区 分 包含 相似 原子 数 的 物 
体 ， 如 区 分 钙 和 碘 。 还 可 以 使 用 该 技术 来 更 好 地 对 尸体 血管 中 的 血液 
凝 块 进行 可 视 化 ， 并 有 可 能 发 现 软组织 出 血 。 在 衰减 中 ， 如 结果 图 所 
示 的 对 特定 材料 的 区 别 有 助 于 对 不 同 的 组 织 类 型 进行 分 类 ， 如 血液 、 
软组织 肌 腿 和 软骨 ( 见 图 18-10) 








图 18-10: int RET aT te ee =o ALARA a BT 
DALAM FA BS TE DY ree FET BT UL, o OT He Z a) ETT BT UL, 
( 见 彩 图 152) 


ee (DCT) 有 成 为 未 来 重要 医疗 诊断 工具 的 潜力 。 
步 的 深入 研究 来 探索 这 [ 门 新 技术 。 虚 拟 尸 检 有 助 
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核磁 共振 成 像 : 使 用 合成 核磁 共振 成 像 


在 冷却 的 尸体 上 生成 高 对 比 度 的 核磁 共振 成 像 很 难 一 一 体温 会 影 
啊 所 有 有 机 组 织 的 核磁 共振 松弛 次 数 ， 因 此 在 临床 医学 上 制定 的 协议 
需要 调整 为 在 任何 给 定 温度 下 都 能 生成 最 佳 的 图 像 。 这 个 问题 可 以 通 
过 计量 组 织 特有 的 绝对 磁 共 振 参 数 T1、T2 和 质子 密度 等 解决 。 








由 于 临床 上 应 用 的 核磁 共振 成 像 扫 摘 仪 难以 解决 以 上 问题 ， 瑞 典 
Linkoing 大 学 医学 影像 科学 与 可 人 视 化 中 心 发 明了 一 种 新 的 方法 ， 即 核磁 
共振 成 像 ( (snthetic MRI)。 在 这 种 方法 中 ，3 个 绝对 参数 被 翻译 成 了 普 
通 的 核磁 共振 对 比 图 片 〈 见 图 18-11 和 图 18-12) 。 借 助 一 种 色 标 ， 这 样 
每 个 组 织 可 以 获取 依赖 于 核磁 共振 组 织 参 数 并 且 不 依赖 于 体温 的 颜色 
成 分 。 因 为 核磁 共振 参数 是 绝对 的 ， 所 以 一 种 颜色 转换 将 与 一 个 颜色 - 

组 织 之 间 的 映射 天 系 相对 应 。 这 种 方式 对 于 解剖 成 像 格外 有 意义 ， 因 
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Al 18-11: 一 个 活 痢 的 病人 的 合成 核磁 共振 成 像 例 子 : 第 一 行 是 传统 
的 图 像 ， 第 二 行 古 基于 同一 个 数据 集 生 成 的 合成 图 像 








Al 18-12: 全 身 合 成 核磁 共振 扫 摘 。 对 比 度 可 以 人 工 合成 ， 软 组 织 可 








以 进行 分 割 ， 甚 至 温度 也 可 以 基于 核磁 共振 参数 确定 














尸体 检查 并 不 需要 考虑 运动 因素 ， 可 以 通过 长 时 间 的 扫描 来 获取 
高 清晰 度 图 像 。 比 如 ， 图 18-13 显 示 了 1.2mm 同 性 分 辨 率 的 头 部 中 弹 伤 


口 。 因 为 位 共振 成 像 基于 绝对 值 ， 因 此 可 以 在 计算 机 断层 扫 摘 后 借助 
处 理 软件 演 染 三 维 图 像 ， 最 终生 成 了 如 图 18-13 和 图 18-14 所 示 的 立体 泻 


Yu o 





图 18-13: 使 用 高 分 辨 率 的 各 向 同性 方案 为 一 个 子弹 伤口 生成 的 尸检 
合成 磁 共 振 成 像 。 左 边 图 像 中 的 红色 代表 血液 ( 见 彩 图 153) 





Al 18-14: iit anniek, SIA CZ IA Pe 


19.8ml) 和 病灶 〈 该 切割 图 中 是 1.9ml) 的 自动 分 割 Ol A154) 
[1] 康 普 顿 散射 ， 也 称 康 普 顿 效 应 ， 在 物理 学 上 ， 它 是 指 当 x 射 线 或 匣 
马 射 线 的 光子 跟 物质 相互 作用 ， 因 失去 能 量 而 导致 波长 变 长 的 现象 。 
由 于 它 是 高 能 量 x 射 线 与 生物 中 的 原子 核 间 最 有 可 能 发 生 的 相互 作用 ， 
因此 亦 被 应 用 于 放射 疗法 。 








可 视 化 : 图 像 分 析 





在 物理 尸体 解剖 的 准备 过 程 中 ， 病 理学 家 和 放射 学 家 举行 了 同步 
进行 的 一 场 协作 式 的 数字 视频 会 议 。 他 们 可 以 快速 地 对 整个 尸体 进行 
清晰 的 调查 ， 定 位 骨折 和 人 气泡。 尸体 全 吴 处 理 的 整个 过 程 文 持 对 异物 
如 金属 碎片 或 子弹 的 快速 是 位。 男 一 个 重要 的 方面 古 数据 分 辨 率 很 
高 ， 在 无 颖 可 视 化 中 可 以 抽取 细 市 信息 (如 牙科 ) 详情 用 于 鉴别 〈 见 
图 18-15) 。 这 种 方式 可 以 为 警方 的 初期 调查 提供 必要 信息 。 在 完成 扫 
摘 后 ， 法 医 离开 瑞典 Linkoing 大 学 医学 影像 科学 与 可 视 化 中 心 ， 开 始 传 
统 的 尸检 。 协 作 的 数字 视频 录像 会 议 中 获取 的 数据 被 转移 到 法 医 研 究 
所 供 他 们 使 用 ， 在 后 期 如 有 果 需 要 更 多 的 信息 ， 可 以 再 联系 放射 科 医 
Æ o 














图 18-15: 有 了 三 维 立体 泻 染 ， 可 以 交互 式 地 改变 背景 ， 这 样 就 可 以 
对 尸体 从 皮肤 到 骨骼 进行 无 颖 可 视 化 ( 见 彩 图 155) 





客观 记录 





虚拟 尸检 为 尸检 过 程 增加 的 一 个 重要 的 价值 是 存储 了 捕获 到 的 双 
VET ST TAT, ks AT DON PR REET IAIN oT 
下 ， 在 物理 尸检 期 间 的 发 现 可 能 会 引出 痢 的 问题 ， 而 虚拟 尸检 可 以 回 
答 这 个 问题 。 病 理学 家 和 犯罪 调查 人 员 还 可 以 在 调查 期 间 的 任意 时 刻 
对 尸体 进行 重新 检查 以 查找 其 他 信息 ， 如 图 18-16 所 示 。 此 外 ， 在 犯罪 
现场 调查 中 ， 新 的 发 现 可 能 依赖 一 些 其 他 假设 ， 这 些 假设 可 以 通过 三 
体 成 像 进行 确认 。 











图 18-16: 对 心脏 和 动脉 的 双 源 计算 断层 扫描 。 比 起 传统 的 单 源 成 像 
(红色 圆圈 所 示 ) ， 双 源 计算 断层 扫描 可 以 对 更 模糊 的 组 成 部 分 进行 
可 视 化 〈 见 彩 图 156) 


目前 ， 虚 拟 尸 检 是 对 尸检 过 程 的 补充 。 然 而 ， 应 该 注意 的 是 ， 将 
其 引入 工作 流 的 代价 十 最 小 的 ， 因 为 和 物理 尸检 相 比 ， 双 源 计 算 断 层 
扫描 和 可 视 化 需要 的 时 间 是 短暂 的 ， 而 且 它 使 得 尸检 更 高 效 。 病 理学 
家 在 开始 尸检 前 ， 可 以 提前 对 案件 的 背景 知识 有 所 了 解 。 在 整个 虚拟 
尸检 过 程 中 ， 尸 体 一 直 在 密封 的 性 缴 中， 这样 可 以 确 体 司法 鉴定 得 到 
的 技术 证 据 的 安全 性 ， 如 纤维 和 体 流 ， 这 对 于 法 院 的 案件 的 判决 非常 


重要 。 








虚拟 尸检 的 优势 和 不 足 


首先 ， 我 们 来 了 解 一 下 和 传统 的 尸检 技术 相 比 ， 虚 拟 尸 检 的 优 
势 o 


节约 时 间 。 虚 拟 尸 检 作 为 标准 尸检 的 补充 ， 能 够 对 整个 尸体 进行 
全 方位 、 广 泛 、 系 . 统 的 研究 ， 而 传统 尸检 要 做 到 这 一 点 通常 很 难 而 且 
时 间 代 价 很 高 ， 比 如 ， 对 整体 骨骼 结构 的 检查 或 者 查找 体内 存在 的 气 
泡 ( 见 图 18-3 和 图 18-4) ° 





:没有 创伤 。 传 统 的 尸检 一 旦 完成 ， 整 个 尸体 就 无 法 重新 组 合成 原 
状态 ， 这 导致 其 他 法 医 病理 学 家 无 法 对 该 尸体 重新 进行 分 析 〈 见 图 
18-5、 图 18-6 和 图 18-7) ° 





-家庭 成 员 可 能 会 出 于 宗教 信仰 如 楷 止 讲 污 尸体 而 拒绝 传统 的 己 


在 刑事 案件 中 ， 尸 检 协 议和 照片 作为 证 据 ， 经 彰 会 让 陪审 员 感 觉 
难以 理解 。 虚 拟 尸 检 会 清晰 得 多 ( 见 图 18-4 和 图 18-9) ° 








对 虚拟 尸检 的 数据 保存 基本 不 存在 问题 ， 而 传统 的 尸检 记录 如 组 
织 切片 通常 难以 长 .期 贮存 〈 见 图 18-16) 。 


-对 于 可 能 对 人 们 构成 越 来 越 大 威胁 的 全 球 性 流感 如 禽 流 感 ( 禽 流 
RRA) 和 HI1N1 病 毒 ， 取 出 受害 者 的 内 脏 会 让 验尸 官 、 病 理学 家 、 医 学 
家 冒 痢 非常 大 的 健康 风险 。 有 了 虚拟 尸检 ， 这 些 风 险 都 可 以 降 至 好 
1K ° 





然而 ， 虚 拟 解剖 也 包含 一 些 缺 点 : 





对 于 多 探头 计算 断层 扫描 ， 软 组 织 区 分 度 很 低 。 能 量 分 辨 的 计算 
Wh ee FSdH-( (DCT) 有 可 能 解决 这 个 问题 ( 见 图 18-10) ° 











对 生成 的 大 量 数据 进行 分 析 是 个 问题 ， 但 是 更 好 、 更 快 地 后 处 理 
程序 应 该 能 够 解决 :这 个 问题 。 


核磁 共振 成 像 是 很 费时 的 调查 方式 ， 而 且 对 于 冷却 的 尸体 不 是 最 
佳 方式 。 合 成 核磁 .共振 成 像 是 一 个 很 有 前 景 的 备 选 方式 ( 见 图 18- 
14) 。 


使 用 多 探头 计算 断层 扫描 成 像 和 核磁 共振 成 像 进行 尸检 的 方式 无 
法 为 尸体 记录 任何 ,颜色 信息 。 可 以 通过 新 的 三 维 立 体 演 染 和 尸体 表面 
扫描 技术 来 解决 这 个 问题 ( 见 图 18-15) ° 


不 存在 宏观 形态 (没有 组 织 学 和 化 学 ) 。 使 用 多 探头 计算 断层 扫 
描 的 活 组 织 检查 或 -核磁 共振 光谱 ， 可 以 在 一 定 程度 上 解决 这 个 问题 
( 见 图 18-16) 。 





难以 对 循环 和 可 能 的 流血 点 进行 可 视 化 ， 虽 然 通过 对 尸体 血管 摄 
影 得 到 了 可 喜 的 成 . 采 。 众 所 周知 ， 对 尸体 的 计算 断层 扫描 摄影 是 从 虚 
拟 尸 检 中 获取 更 多 信息 的 一 种 可 行 方 式 ， 如 图 18-17 所 示 。 





尸体 散发 的 气体 和 其 他 气体 (小肠 气 、 伤 口 渠道 积 气 ) 难以 区 分 
开 。 因 此 ， 在 死 后 .尽快 进行 尸体 成 像 检 查 是 很 重要 的 ( 见 图 18- 
18) 。 


虚拟 尸检 的 未 来 


多 探头 计算 断层 扫 朱 和 位 共振 成 像 都 可 以 用 于 尸体 成 像 。 原 则 
上 ， 很 容易 通过 多 探头 计算 断层 扫描 对 骨骼 、 和 气体 和 金属 进行 可 视 
化 。 但 是 ， 重 要 的 是 ， 不 仅 要 注意 这 些 技术 的 能 力 ， 还 应 该 注意 它们 
的 局 限 性 。 








将 来 的 可 视 化 研究 必须 包含 实现 虚拟 解剖 工作站 的 整体 目标 ， 它 
包括 了 前 治 的 虚拟 尸检 技术 需要 的 所 有 方面 。 需 要 开发 提高 虚拟 尸检 
过 程 质量 和 效率 的 可 视 化 工具 。 需 要 专注 于 新 的 泻 染 与 分 类 技术 的 研 
完 和 开发 工作 ， 以 提高 这 些 技术 的 可 用 性 ， 并 专门 解决 法 医 问题 。 男 
一 个 重要 的 目标 是 为 主要 的 法 医 案件 分 类 建立 专门 的 备 态 录 。 








图 18-17: 在 马 和 羚羊 的 尸体 上 执行 动脉 注射 效果 恨 好 。 数 据 
双 能 计算 断层 扫描 获取 到 的 ( 见 彩 图 157) 
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图 18-18: 对 于 传统 的 尸体 解剖 ， 难 以 检查 尸体 上 不 同类 型 的 气体 
( 见 彩 图 158) 


数据 分 析 人 研究 包括 实现 计算 机 辅助 诊断 的 工具 ， 这 些 工具 一 旦 应 
用 于 尸体 数据 ， 将 有 助 于 查找 和 特征 化 相关 的 法 医 调查 结 末 。 这 
具 还 可 以 提供 死者 的 相关 信息 ， 如 身高 、 体 重 、 人 性 别 、 重 大 伤害 、 
物 (如 子弹 ) ， 以 及 目 动 初步 生成 的 可 能 的 死因 、 书 面 虚拟 尸检 备 环 
FE 。 


成 功 解决 这 些 问 题 之 后 ， 可 以 对 虚拟 尸检 的 全 过 程 都 有 涉及 的 拉 
术 进 行 改进 ， 推 动 整个 工作 流 的 目 动 化 。 这 将 使 得 在 合理 的 时 间 内 可 
以 完成 大 量 虚 拟 尸 检 。 这 对 于 处 理 一 些 出 现 大 量 伤 亡 人 员 的 灾难 事件 





非常 有 用 ， 如 2004 年 的 亚洲 海啸 ， 当 时 没有 执行 任何 尸检 。 由 于 您 怖 
分 子 时 刻 都 在 提高 他 们 的 技术 ， 如 果 法 医 病理 学 家 不 能 够 利用 新 兴 
术 来 尽 可 能 地 从 受害 者 身上 收集 更 多 信息 ， 那 将 是 不 可 想象 的 〈 见 图 
18-19) 。 如 果 处 在 一 个 没有 人 真正 感觉 安全 的 时 代 ， 我 们 就 不 应 该 只 
着 眼 于 预防 灾难 ， 还 应 该 为 灾难 的 发 生 做 好 充分 的 准备 ， 当 灾难 发 生 
时 可 以 及 时 处 理 。 








为 了 真正 进入 数字 尸检 的 新 时 代 ， 各 种 力量 必须 通力 协作 。 医 学 
专业 人 士 和 执法 权威 人 十 必须 确定 扫描 和 存储 数据 的 标准 草案 。 世 界 
各 地 的 法 律 制 度 必 须 确定 成 像 证 据 在 分 辨 死亡 原因 和 方式 时 的 可 接受 
性 。 此 外 ， 还 需要 对 新 领域 的 专家 进行 培训 ， 如 尸体 放射 学 。 放 射 科 
医生 通 音 受到 的 培训 是 解释 病人 的 图 像 ， 但 是 死 着 和 病人 不 同 ; ME 
创伤 或 者 解剖 分 解 的 效果 可 以 取代 器 官 。 理 解 这 些 差 异 ， 需 要 知识 和 
专长 ， 而 这 些 知 识 目前 尚未 普及 。 











图 18-19: XT BOGE HY PRT elo tata o PNA AS cee FB Ar BE a 





振 成 像 无 法 使 用 。 在 执行 计算 断层 扫 拉 之前， 没有 任何 谋杀 嫌疑 ， 但 
征 某 些 无 法 解释 的 骨折 给 调查 员 指 明了 方 问 





谋杀 ( 见 彩 图 159) 


创伤 性 的 尸体 解剖 至 少 在 几 年 之 内 还 将 普 衣 存在。 但是， 在 某 些 
情况 下 ， 我 们 可 能 发 现 传统 的 尸体 解剖 可 以 被 非 创 仿 性 的 虚拟 尸检 取 





代 ， 后 者 只 在 必要 的 时 候 执 行 微 创 性 的 、 图 像 引 导 的 组 织 抽样 。 和 传 
统 的 尸体 解剖 相 比 ， 虚 拟 尸 检 有 可 能 获得 较 高 的 接受 度 ， 使 得 在 法 医 
和 传统 医学 中 持续 保持 高 水 平 的 质量 控制 成 为 可 能 。 


结束 语 





虚拟 尸检 十 尸检 流程 中 新 增 加 的 一 个 处 理 过 程 ， 它 可 以 提高 传统 
尸检 技术 ， 从 而 能 够 得 到 更 为 可 靠 的 结果 。 在 某 些 情况 下 ， 虚 拟 尸 检 
能 够 取代 普通 的 尸体 解 副 。 然 而 ， 关 于 尸体 放射 学 独 有 的 人 研究 必须 能 
够 识别 出 应 用 这 种 技术 时 最 为 受益 的 案例 ， 并 且 要 验证 新 的 流程 。 显 
然 ， 新 的 尸检 方法 的 引入 可 能 会 对 法 医学 、 司 法 系统 、 警 察 和 普通 医 
药学 造成 重要 影响 。 
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第 19 章 “动画 可 视 化 : HAGA Danyel 


Fisher 


动画 是 否 有 助 于 创建 更 丰富 、 更 生动 和 更 易于 理解 的 可 视 化 ， 或 

只 是 让 人 更 为 困惑 ? 随 着 Java、Flash、Silverlight 和 JavaScript 等 在 
Web 上 的 广泛 使 用 ， 使 得 动画 式 的 具有 交互 功能 的 可 视 化 的 发 布 愈 加 
容易 。 很 多 可 视 化 人 员 开 始 思 考 如 何在 他 们 的 可 视 化 中 引入 动画 功 
能 ， 从 而 让 他 们 的 可 视 化 变 得 更 有 了 吸引 力 。 如 何 使 静态 可 视 化 更 为 有 
效 方面 有 很 多 好 的 指南 ， 很 多 应 用 也 可 以 很 好 地 支持 交互 。 但 是 ， 动 
画 可 视 化 仍然 是 一 个 新 领域 ， 对 于 如 何 评价 一 部 动画 可 视 化 作品 还 没 
有 达成 基本 的 共识 。 














从 直觉 角 度 来 看 ， 动 画 应 该 足够 清晰 ， 如 果 一 张 二 维 图 像 的 效果 
已 经 很 不 错 ， 那 么 一 张 能 动 的 图 像 的 效果 应 该 只 会 更 好 。 运 动 ， 我 们 
都 很 熟悉 ， 我 们 早已 习惯 于 现实 世界 中 的 各 种 运动 ， 也 习惯 于 看 着 事 
物 平滑 地 运动 。 在 我 们 周围 ， 事 物 在 以 我 们 切实 理解 的 方式 运动 、 生 
TR > BEL ° 





在 可 视 化 中 ， 动 画 能 够 显示 中 间 的 步 又 和 转换 过 程 ， 也 能 显示 数 
据 是 如 何 随 厦 时 间 的 变化 而 收集 起 来 的 ， 这 可 能 有 助 于 观察 者 深入 理 
解 某 个 观点 背后 的 逻辑 。 移 动 的 图 片 可 能 提供 的 是 一 种 轩 狐 的 视角 ， 


也 可 能 站 更 能 吸引 用 户 从 而 促使 用 户 更 深入 地 观察 数据 。 动 画 还 可 以 
使 两 张 视 图 之 间 的 变化 更 平滑 ， 甚 至 在 不 存在 平 请 数据 变化 的 临时 组 
件 的 情况 下 也 可 能 做 到 这 一 点 。 





作为 例子 ， 我 们 一 起 了 解 一 下 Jonathan Harris 和 Sep Kamvar 的 “We 
Feel Fine” 的 动画 可 视 化 ( (htp: /wefeelfine.org)。 在 这 个 可 视 化 中 ， 提 
到 情感 的 博文 被 显示 成 气泡 。 在 不 同 的 视图 内 ， 气 泡 被 组 织 成 直方 图 
和 其 他 模式 。 举 个 例子 ， 一 个 屏幕 显示 男性 和 女性 的 博文 的 相对 分 
布 ， 而 另 一 个 屏幕 显示 博文 中 流露 的 情绪 的 相对 分 布 。 虽 然 气泡 在 屏 
幕 上 上 自由 移动 ， 但 是 在 屏幕 上 的 气泡 的 数量 一 直 是 恒定 的 。 这 种 恒定 
性 有 助 于 强化 样本 以 不 同方 式 组 织 的 理念 。 动 画 还 可 以 用 于 唤起 情 
R: 气泡 的 能 量 值 不 同 则 运动 也 不 同 ， 表 示 “ 季 福 ” 的 气泡 的 运动 方式 
和 表示 “悲伤 ”的 气泡 的 运动 方式 是 不 一 样 的 。 























但 是 ， 并 非 所 有 的 动画 都 是 成 功 的 。 有 太 多 的 应 用 十 对 
PowerPoint 的 动画 的 滥用 ， 数 据点 在 屏幕 上 漫 无 目的 的 到 处 配 飞 ， 各 
种 组 件 只 是 在 屏幕 上 受 无 意义 的 空间 中 横扫 、 扩 展 和 旋转 ， 这 样 通 币 
只 走 寻 致 一 片 混乱 。 











我 已 经 多 次 创建 过 动态 可 视 化 。 在 2000 年 ， 我 和 几 个 研究 生 一 起 
创建 了 GnuTellaVision， 它 是 对 不 断 增 长 的 Gnutella 对 等 网 络 的 可 视 
化 。 从 那 以 后 ， 我 就 一 直 从 事 采 用 了 动画 可 视 化 的 很 多 项 目 :， 比如 在 
一 个 应 用 了 动画 散 点 图 的 项 目 中 ， 以 观察 员 的 号 份 密切 关注 DynaVis 项 





目 ， 关 注 不 同 可 视 化 之 间 的 转换 效果 。 在 本 章 ， 我 将 交流 一 些 经 验 并 
竹 试 给 出 动画 可 视 化 的 一 些 基本 原则 。 


如 果 使 用 得 当 ， 动 画 将 是 一 种 非常 强大 的 技术 ， 但 当 使 用 不 当 
时 ， 其 效果 也 会 非常 差 。 有 些 动画 虽然 提高 了 可 视 化 的 视觉 吸引 力 ， 
但 是 可 能 复杂 化 了 对 数据 集 的 探索 ， 其 他 类 型 的 可 视 化 对 于 探索 可 能 
更 为 合适 。 本 章 试 着 建立 一 个 有 效 的 动画 可 视 化 的 设计 框架 。 我 们 首 
先 一 起 了 解 一 些 缘 景 材料 ， 然 后 探讨 最 知名 的 动画 可 视 化 之 一 一 一 
Hans Rosling 的 GapMinder。 我 参与 过 一 个 类 似 于 GapMinder 的 探索 动 
画 散 点 图 的 项 目 ;， 它 可 以 作为 讨论 动画 可 视 化 的 成 功 和 失败 之 处 的 一 
个 不 错 的 开始 。 正 如 我 们 将 看 到 的 ， 成 功 的 动画 可 以 展示 多 种 转换 类 
型 。DynaVis 项 目 会 为 我 们 展示 其 中 一 些 转型 和 转换 是 如 何 实现 的 。 在 
本 章 的 最 后 将 可 视 化 的 一 些 设计 原则 作为 结尾 。 











动 男 原 则 





本 质 上 来 看 ， 任 何 动画 都 是 向 观众 展示 一 系列 快速 、 连 续 的 图 
像 。 观 众 对 这 些 图 像 进 行 组 活 ， 试 大 把 各 个 图 像 上 发 生 的 事情 员 通 起 
来 。 感 知 系统 会 注意 到 帧 之 间 的 变化 ， 因 此 动画 可 以 个 理 解 为 不 同 帧 
之 间 的 一 系列 视觉 变化 。 当 变化 很 少时 ， 可 以 很 容易 理解 发 生 了 什么 
变化 ， 而 且 观 众 也 可 以 很 容易 追 踩 这 些 变化 。 但 当 有 大 量 的 变化 时 ， 
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Gestalt 的 “共同 命运 ”( (cmmon fate) 感 知 原则 指出 观众 会 把 大 量 的 
事物 组 合 在 一 起 ， 如 果 这 些 事物 以 相同 速度 、 沿 相同 方向 运动 ， 它 们 
就 会 被 看 作 同 一 组 。 个 别 沿 着 自己 的 轨迹 运动 的 对 象 将 会 被 看 作 “ 游 离 
点 ”， 在 视觉 上 会 很 明显 。 但 是 ， 如 果 所 有 事物 都 沿 着 不 同 的 方向 运 
动 ， 观 众 将 无 法 应 付 。 感 知 研究 人 员 已 经 证 实 了 观众 难以 对 超过 4 个 或 
5 个 独立 运动 的 对 象 进行 追踪 一 一 他 们 将 放弃 追踪 所 有 的 ， 转 而 只 追踪 
几 个 物体 ， 把 其 他 的 作为 “噪音 ”看待 ( (Cvanagh、Alvarez 2005) ° 

















科学 可 视 化 中 的 动画 





在 一 年 一 度 的 IEEE VisWeek 会 议 一 一 可 视 化 的 研究 峰会 上 ， 与 会 
人 员 被 分 成 了 两 组 : 信息 可 视 化 研究 人 员 和 科学 可 视 化 研究 人 员 。 这 
两 组 的 演讲 不 同 ， 坐 在 不 同 的 会 议 室 ， 有 时 吃饭 也 是 坐 在 不 同 的 餐桌 
边 。 观 察 这 些 演讲 ， 很 快 就 可 以 注意 到 ， 在 科学 可 视 化 会 议 室 里 大 约 
有 一 半 的 文 草 是 天 于 动画 的 ， 而 在 信息 可 视 化 会 议 室 里 几乎 没有 一 篇 
文章 是 关于 动画 的 。 你 可 以 认为 这 两 个 分 组 之 间 的 区 别 在 于 科学 可 视 
化 研究 人 员 是 真正 理解 x、y、z 轴 含义 的 人 : 他 们 善于 绘制 图 片 的 各 个 
维度 ， 理 解 深度 和 距离 的 洱 义 。 他 们 通常 研究 动态 过 程 ， 比 如 大 风 吹 
过 飞机 机 可 、 飓 风 席 卷 整个 地 图 、 血 液 沿 着 静态 流动 ， 此 外 往往 还 涉 
及 另外 一 个 维度 : 时 间 。 因 为 难以 把 时 间 强 加 到 其 他 三 个 维度 (x、 
y、`、z 轴 ) 中 ， 动 画 是 显示 该 过 程 的 一 个 不 错 的 选择 。 





与 此 相反 ， 数 据 可 视 化 就 没有 如 此 简单 了 。 信 息 可 视 化 研究 人 员 
通常 致力 于 抽象 的 数据 空间 ， 其 各 个 轴 并 未 与 现实 世界 对 应 (如 果 这 
些 轴 有 任何 涵义 的 话 ) 。 观 众 需 要 适应 他 们 能 够 看 到 的 各 个 维度 ， 然 
后 学 会 解释 它们 。 因 此 ， 在 信息 可 视 化 领域 ,与 动画 有 关 的 文章 相对 
较 少 。 (我 们 后 面 将 讨论 其 中 几 个 例子 。) 


从 卡通 中 学 习 


当然 ， 动 男 在 可 视 化 以 外 的 领域 很 流行 。 电 影 和 卡通 所 遵循 的 一 
些 的 原则 和 计算 机 动画 相同 ， 因 此 有 人 会 问 卡 通 技术 是 否 会 给 创建 动 
画 可 视 化 市 来 一 些 有 用 的 认 知 。 早 在 1946 年 ， 比 利 时 的 心理 学 家 Albert 
Michotte 束 提出 “因果 性 知觉 *( (prception of causality)( (Mchotte 
1963) 。 人 们 很 容易 相信 动画 中 的 运动 是 有 目的 的 : 一 个 点 是 在 追逐 
男 一 个 点 (而 不 是 认为 一 个 点 在 沿 着 相同 的 轨迹 在 其 后 面 运动 ，; 或 
者 是 一 个 球 击 中 了 男 一 个 球 〈 而 不 是 “这 个 点 在 位 置 A 停 下 ， 而 另 一 个 
点 从 位 置 A 运动 到 位 置 B”) 等 因此， 我们 可 以 把 原因 归于 媒介 和 因果 
性 ， 虽 然 实际 上 二 者 都 不 存在 。 





当然 ， 在 卡通 里 ， 我 们 和 希望 表达 因果 关系 。 传 统 的 漫画 家 描述 了 
为 了 表达 情感 ， 如 何 给 漫画 赋予 “生命 幻觉 " (lusion of life)( (Jhnston 
和 Thomas 1987) ， 还 有 一 些 研 究 论文 ( (Lsseter 1987; Chang 和 Ungar 
1993) 曾 尝 试探 索 如 何 为 计算 机 动画 和 可 视 化 提炼 思想 。 





传统 漫画 家 采取 一 系列 技术 ， 有 些 和 真实 生活 不 完全 一 致 。 举 个 
例子 ， 挤 压 和 拉 伸 ， 在 事物 运动 时 对 它 进行 扭曲 ， 把 眼睛 画 成 和 运动 
方向 一 致 : 事物 在 以 最 快速 度 飞行 时 可 能 会 拉 伸 ， 而 挤 压 表 达 的 含义 
征 停 止 运动 、 收 集 能 量 或 改变 方向 。 沿 着 弧 线 运动 意味 着 运动 更 自 
然 ， 沿 看 直线 的 运动 看 起 来 目的 很 明确 。 在 事物 开始 运动 前 ， 他 们 预 








测 即 将 发 生 的 运动 ， 而 以 持续 性 告终 。“ 渐 进 和 渐 出 ”( (ese-in,ease-out) 
是 定时 动画 技术 的 一 门 技 术 : 动画 缓慢 开始 以 强调 方 同 ， 中 间 加 速 ， 
最 后 速度 又 缓 下 来 。 复 杂 的 运动 分 解 为 多 个 阶段 来 吸引 人 们 要 特别 注 


的 个 别 部 分 。 





可 视 化 研究 人 员 以 不 同 的 热情 改造 过 这 些 技 术 并 获得 了 不 同 程度 
的 成 功 。 举 个 例子 ,信息 可 视 化 研究 框架 ( (Crd、Robertson 和 
Mackinlay 1991) ， 一 个 早期 的 三 维 动画 框架 ， 其 中 集成 了 部 分 原则 ， 
包括 预期 、 弧 线 和 后 续 跟 进 。 另 一 方面 ， 其 中 的 某 些 原则 看 起 来 非常 
不 恰当 。 比 如 ， 对 一 个 数据 点 的 挤 压 或 拉 伸 会 扭曲 它 ， 改 变 可 视 化 的 
本 质 ; 因此 ， 我 们 不 再 认为 可 视 化 在 动画 的 每 个 帧 维持 一 致 性 原则 “高 
度 映 射 这 个 ， 宽 度 映射 那个 ”。Zongker 和 Salesin (20034) 在 用 幻灯 片 
展示 的 研究 成 果 中 ， 提 醒 人 们 很 多 动画 技术 会 分 散 注意 力 或 具有 欺骗 
性 ， 其 推导 所 展示 出 的 因果 性 可 能 都 不 存在 。 此 外 ， 这 些 动画 技术 往 
往 会 给 人 们 一 种 错觉 ， 它 可 能 非常 不 适合 数据 可 视 化 。 (一 个 例外 
是 “We Feel Fine”， 在 该 可 视 化 中 ， 运 动 表示 传达 情感 ， 而 且 它 有 效 地 
使 用 该 技术 实现 了 这 个 效果 。) 

















动画 的 负面 效应 


动画 在 数据 可 视 化 中 的 应 用 不 如 科学 可 视 化 成 功 。 二 元 全 究 查 看 
了 不 同类 型 的 动画 一 一 过 程 动画 和 算法 可 视 化 一 一 发 现 这 两 类 动画 在 








帮助 学 生 学 习 更 复杂 过 程 时 对 记录 的 追踪 参差 不 齐 。 


心理 学 家 Barbara Tversky 发 现 ， 让 她 有 些 失 望 的 是 ， 动 画 看 起 来 并 
不 利于 过 程 可 视 化 〈 也 就 是 说 ， 显 示 如 何 使 用 工具 或 技术 的 可 视 
化 ) 。 她 在 文章 《Animation:Can It Facilitate?》( (Tersky、Morrison 和 
Bétrancourt 2002) 中 讲述 了 对 接近 100 部 的 动画 和 可 视 化 作品 的 研究 。 
没有 任何 一 部 动画 的 研究 证 明 动 画 的 效果 超过 信息 丰富 的 统计 图 ， 虽 
然 它 确实 优 于 文本 表示 ， 也 优 于 没有 过 渡 状态 而 只 显示 开始 和 结束 状 
态 的 简单 展示 。 算 法 动画 在 很 多 方面 类 似 于 过 程 可 视 化 ， 可 以 通过 演 
示 各 个 步骤 来 说 明 算 法 。 例 如 ， 有 些 排序 算法 非常 适合 于 动画 : 可 以 
把 一 组 值 描绘 成 条 形 序列 图 ， 排 序 操作 就 是 移动 条 形 图 。 这 些 动画 可 
以 很 容易 地 演示 冒 泡 排 序 和 插入 排序 之 类 的 算法 。Christopher 
Hundhausen、Sarah Douglas 和 John Stasko (2002 年 ) 试 着 了 解 算法 可 视 
化 在 教室 里 的 有 效 性 ， 但 是 在 他 们 的 研究 中 ， 有 一 半 表 明 动 画 无 法 帮 
助 学 生 理解 算法 。 有 趣 的 是 ， 预 测 成 功 的 最 强 因子 是 动画 背后 的 可 视 
化 。 包 含 建 构 理 论 的 可 视 化 是 最 有 用 的 一 一 也 就 是 说 ， 当 学 生 实 现代 
码 或 算法 ， 查 看 自己 的 作品 的 可 视 化 ， 或 者 向 学 生 提 问 ， 让 他 们 试 着 
通过 可 视 化 回答 这 些 问 题 。 相 比 之 下 ， 动 画 在 传授 知识 方面 效果 不 
好 ; 被 动 地 观察 动画 并 不 比 其 他 方式 的 教学 效果 好 。 




















GapMinder 和 动画 散 点 图 


动画 可 视 化 最 近 的 一 个 例子 是 Hans Rosling 的 
GapMinder(http: /www.gapminderorg)。Rosling 是 瑞典 研究 全 球 健康 的 
教授 ，2006 年 2 月 他 在 关于 “科技 、 娱 乐 、 设 计 ( (TOP HAW PAIK 
和 现场 观众 交互 ， 之 后 和 很 多 网 友 进 行 了 交互 。 他 从 国际 资源 中 收集 
了 公众 健康 统计 数据 ， 在 他 的 演讲 中 ， 这 些 数据 被 绘制 成 了 散 点 图 。 
在 可 视 化 中 ， 一 个 点 代表 一 个 国家 ， 其 中 x 和 y 值 表示 如 革命 和 平均 孩 
子 数 之 类 的 统计 ， 而 且 每 个 点 的 面积 都 和 其 表示 的 国家 的 人 口 数 对 
应 。Rosling 首 先 显 示 的 是 单个 帧 一 一 在 某 一 年 的 国家 统计 一 一 在 通过 
时 间 退 踩 可 视 化 进展 前 ， 使 用 动画 对 每 年 的 图 像 进 行 显示 。 











独 19-1 显 示 了 类 似 于 GapMinder 动 男 的 3 个 帧 。x 轴 表示 出 生 时 的 预 
期 奉命 ，y 轴 表示 婴儿 死亡 率 。 气 泡 大 小 和 人 口 数 对 应 ， 对 每 个 州 进行 
闫 色 编 码 ， 最 大 的 两 个 点 是 中 国 和 印度 。 
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图 19-1: 类 似 GapMinder 的 可 视 化 说 明了 在 1975、1985、1995、2000 
这 4 年 间 75 个 国家 的 信息 ; 该 图 对 寿命 (x 轴 ) 和 婴儿 死亡 率 (y 轴 ) 进 
行 绘图 。 在 左上 角 的 国家 ， 其 婴儿 死亡 率 高 ， 寿 命 短 ( 见 彩 图 160) 





Rosling 的 动画 很 吸引 人 : 他 使 用 了 点 的 运动 ， 描 述 了 他 们 的 相对 
进展 。 中 国 提出 了 适当 的 公共 健康 规划 ， 其 所 代表 的 后 束 同 上 运动 ， 
而 其 他 国家 也 壬 试 实践 了 相同 的 策略 。 一 个 国家 的 经 济 飞 速 增长 ， 其 
所 代表 的 点 就 迅速 向 右 运动 。Rosling 使 用 该 动画 很 有 力 地 说 明了 我 们 


对 公共 健康 问题 的 理解 以 及 发 达 国 家 和 发 展 中 国家 之 间 的 差别 ， 动 画 
帮助 观众 理解 他 的 观点 。 

[1]: 在 网 上 

http: //www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_eve 


r_seen.html 可 以 得 到 相关 资料 。Rosling 在 TED 2007# TED 2009 两 次 会 
议 中 做 了 类 似 的 探讨 。 


之 前 提 到 的 感知 心理 学 研究 表明 人 们 最 多 同时 跟踪 4 个 运动 的 点 。 
在 展示 过 程 中 ，Rosling 可 以 引导 观众 ， 说 明 应 该 查看 哪里 ， 而 且 他 的 
讲述 告诉 了 人 们 应 该 关注 哪些 点 。 借 助 很 长 的 指示 棒 ， 他 描述 了 一 个 
国家 的 进步 ， 应 该 得 看 哪里 。 这 降低 了 混乱 。 





男 一 个 优势 在 于 他 使 用 的 二 维 散 点 图 中 “好 ”和 “ 坏 ” 的 指示 非常 明 
确 : 一 个 国家 走向 更 高 的 GDP 和 有 更 长 的 人 均 寿 命 束 是 好 的 ( 即 向 
E` Aes) ， 而 朝 着 相反 的 方向 运动 束 是 坏 的 (向 下 、 向 左 运 


Rosling 明 确 地 引导 大 家 应 该 注意 的 点 ， 该 可 视 化 非常 有 效 。 但 
征 ， 如 有 果 把 时 间 散 点 图 结合 到 标准 的 电子 表格 中 ， 对 于 那些 想 要 了 解 
数据 的 人 是 否 会 同样 有 用 呢 ? 


MS EEU, 


EMERARA, RIET, EECA BOR TAREE BAER 
人 们 是 否 仍然 有 效 。 我 们 重新 实现 了 一 个 类 似 GapMinder 的 动画 ， 在 
适当 的 (x,y) 坐标 点 绘制 点 ， 通 过 年 份 把 这 些 点 平 清 地 插 在 一 起 。 然 
后 ， 我 们 考虑 3 种 可 符 代 的 静态 可 视 化 ， 它 包含 和 该 动画 相同 的 信息 
量 。 首 先 ， 我 们 可 以 简单 地 采用 单个 帧 ， 如 图 19-1 所 示 。 然 而 ， 在 最 
开始 的 草图 中 ， 我 们 束 已 经 意识 到 这 种 方法 不 好 : 这 种 方式 使 得 追踪 
在 多 个 帧 之 间 的 总 的 运动 很 难 。 能 够 治 着 各 个 国家 的 运动 轨迹 并 对 它 
们 进行 比较 古 GapMinder 的 非常 重要 的 部 分 。 我 们 布 望 用 户 能 够 对 后 
从 一 个 地 方 运动 到 男 一 个 地 方 有 连续 的 观念 ， 而 这 古人 简单 的 单个 帧 无 
法 取得 的 效果 。 








因此 ， 我 们 实现 了 男 外 两 种 视图 ， 使 用 的 国家 集合 和 轴 与 图 19-1 
的 相同 ， 数 据 古 从 1975 年 到 2000 年 的 。 第 一 个 视图 是 轨迹 视图 ， 它 显 
示 了 在 男 一 个 轨迹 上 的 所 有 路 径 ， 如 图 19-2 所 示 。 第 二 个 图 由 很 多 小 
的 视图 组 合 而 成 ， 它 在 每 条 轴 上 分 别 独立 绘制 了 每 条 路 径 ， 如 图 19-3 
所 示 。 在 第 一 个 视 独 中 ， 我 们 使 用 透明 度 朱 述 时 间 ; 在 第 二 个 视图 
中 ， 我 们 通过 点 的 大 小 表示 时 间 。 
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19-2: WER, APRS RRERR MAI, ERMA 
WEEER: FR AAR A OE ( 见 彩 图 161) 


Al 19-3. 多 个 小 视图 的 组 合 ， 其 中 每 个 国家 在 它 目 己 的 小 的 坐标 系 
统 中 : 点 的 逐渐 变 大 被 用 来 表示 时 间 的 前 移 ( 见 彩 图 162) 


我 们 希望 了 解 ， 对 用 户 而 言 ， 动 画 和 静态 图 形 表示 相 比 效 打 如 
何 。 用 户 可 以 在 GapMinder 网 站 上 设置 目 己 的 散 点 图 ， 但 是 他 们 十 否 
能 够 从 目 己 的 数据 中 学 到 新 的 东西 ? 


基于 美国 的 公共 健康 和 人 口 普 碍 数据 ， 我 们 选择 30 组 不 同 的 
(xy) 值 ， 向 用 户 展示 非常 简单 的 问题 ， 如 “在 这 个 散 点 图 中 ， 哪 个 


家 GDP 增 长 最 快 "*、“ 在 这 个 散 点 图 中 ， 结 婚 率 下 降 最 快 的 国家 在 哪 
个 洲 *。 我 们 还 招募 那些 熟悉 获 点 图 并 且 在 日 第 工作 中 人 处理 数据 的 用 
户 。 有 些 人 需要 “探索 ”数据 ， 坐 在 计算 机 前 回答 问题 。 其 他 人 得 到 * 讲 
稿 "， 叙 述 者 将 癌 他 们 展示 可 视 化 或 者 播放 动画 。 当 这 些 用 户 回答 问题 
时 ， 我 们 会 记录 其 回答 的 时 间 和 准确 性 。 





Robertson 等 给 出 了 该 研究 的 详细 数值 结果 (2008 年 ) 。 其 主要 结 
论 可 以 非常 简单 地 表述 如 下 : 与 其 他 方式 相 比 ， 动 画 传递 信息 时 的 效 
率 和 准确 度 都 比较 低 。 





用 动画 进行 的 探 系 效率 更 低 


我 们 发 现 ， 当 用 户 目 己 探索 数据 时 ， 他 们 会 播放 儿 十 次 动画 ， 碍 
看 哪个 国家 是 准确 答案 。 相 反 ， 那 些 观看 讲稿 并 且 不 能 目 己 控 制 动 画 
的 用 户 的 回答 则 要 快 得 多 : 他 们 必须 马上 选择 一 个 答案 。 因 此 ， 动 画 
在 用 于 数据 探索 时 是 效率 最 低 的 ， 而 动画 在 用 于 展现 时 则 是 效率 最 高 
的 。 有 趣 的 是 ， 这 可 能 正好 解释 了 为 什么 Tversky 的 过 程 动画 如 此 不 成 
功 。 在 我 们 的 测试 中 ， 用 户 显然 想 要 能 够 快 进 和 后 退 ， 可 能 在 过 程 动 
画 中 也 存在 同样 的 问题 。 和 一 系列 静态 图 片 相 比 ， 要 从 动画 中 获取 到 
相同 的 信息 需要 付出 更 多 的 努力 ， 因 为 需要 全 部 重播 ， 而 不 是 直接 跳 
到 你 想 要 看 的 那 部 分 。 














动画 准确 率 更 低 


虽然 用 户 在 动画 上 人 花费 了 更 多 的 时 间 ， 但 那些 观看 静态 可 视 化 的 
用 户 的 回答 往往 更 准确 。 也 束 是 说 ， 动 画 看 起 来 分 散 了 用 户 注 意 力 ， 
使 他 们 不 能 给 出 正确 的 答案 。 他 们 回答 问题 的 准确 性 和 回答 速度 无 
天 : 观看 动画 的 用 户 人 花费 更 多 的 时 间 探 索 数 据 ， 但 似乎 并 没有 驱动 他 
们 产生 更 好 的 第 来 * 


这 一 点 似乎 是 动画 的 缺点 ， 传递 信息 的 效率 和 准确 率 部 更 低 。 力 
一 方面 ， 我 们 发 现 动画 的 吸引 力 更 强 ， 更 容易 打动 人 心 : 一 名 飞行 员 
看 到 一 个 饱 受 战争 躁 中 的 国家 的 人 均等 命 大 幅 下 跌 了 30 年 ， 他 宕 尺 得 
喊 了 出 来 。 通 币 ， 用 户 更 布 望 接 触动 画 ， 认 为 它 比 其 他 方式 更 让 人 答 
快 和 兴 理 。 虽 然 有 时 他 们 发 现 动画 更 让 人 诅 形 : “那个 点 要 去 哪 ? ”有 
个 用 户 层 怒 地 喊 道 ， 因 为 有 个 稳步 上 升 的 点 突然 下 降 。 








这 些 结 采 表明 Rosling 的 演讲 和 我 们 的 用 户 体 验 有 些 区 别 。 至 关 重 
要 的 是 ，Rosling 知 道 答案 : 他 已 经 对 数据 进行 了 研究 ， 知 道 自己 想 要 
表达 的 观点 ， 然 后 市 领 观察 者 找到 答案 。 他 在 相同 的 轴 集 合 上 表示 ， 
这 样 用 户 就 不 会 迷失 方 同 。 数 据 相当 信 单 :在 静态 图 中 ， 他 只 突出 极 
少 的 几 个 国家 ， 这 些 国家 在 趋势 中 变化 很 大 ， 而 当 他 同时 对 很 多 国家 
动画 显示 时 ， 显 示 上 过 于 紧凑 ， 运 行 方 稀 相同。 他 选择 轴 表 示 ， 使 得 
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目标 。 利 用 “Gestalt 共 同 命运 原则 *( (Gstalt principle of common fate) xt 
这 些 国家 进行 了 分 组 ， 可 以 最 清晰 地 表达 这 些 国家 间 的 过 小 。 





相 比 之 下 ， 我 们 的 用 户 需 要 及 时 抓 住 很 短 的 片段 ， 记 住 那些 突然 
变化 的 国家 ， 而 且 没 有 解说 员 来 对 他 们 将 要 看 到 的 进行 解释 :不 是 从 
解说 员 那 里 找到 答案 ， 而 是 需要 他 们 目 己 去 找到 它 。 这 对 我 们 来 说 意 
味 着 我 们 的 用 户 需 要 做 的 和 Rosling 所 做 的 区 别 很 大 一 一 非常 不 一 样 ， 
实际 上 ， 这 些 不 同 之 处 甚至 可 以 独立 写成 一 草 。 
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面 对 着 一 张 电 子 表格 的 分 析 师 事先 并 不 知道 数据 要 说 明 什 么 ， 因 
此 需要 从 多 个 角度 来 分 析 数 据 ， 寻 找 可 能 隐藏 在 数据 中 的 关联 、 连接 
和 思想 。 这 个 过 程 相当 于 疯 食 一 一 快速 地 查看 一 张 给 定 图 形 或 视图 来 
确定 是 否 存 在 一 些 可 以 调查 的 有 趣 的 方面 ， 随 后 是 移动 新 的 过 滤 方 式 
或 发 现 新 的 图 片 。 











相反 ， 讲 演 考 非 第 了 解 目 己 的 数据 。 他 们 已 经 从 数据 集中 清除 了 
脏 数 据 ， 可 能 已 经 删除 了 一 些 游 离 点 或 者 重点 强调 了 文 持 目 己 想 要 表 
达 的 核心 思想 的 数据 。 他 们 选择 能 够 很 好 地 表达 目 己 的 观点 的 轴 和 时 
间 区 间 ， 并 且 引 导 观 众 得 看 数据 。 最 重要 的 是 ， 他 们 不 太 可 能 需要 像 
我 们 的 用 户 那样 ， 为 了 确认 自己 有 没有 忽略 掉 了 某 个 点 ， 需 要 快 退 或 
快 进 得 看 数据 。 对 于 这 些 情 况 ， 动 画 有 其 非凡 的 意义 : 它 使 得 演讲 者 
可 以 生动 有 趣 地 表达 其 观点 。 











对 数据 进行 探索 和 对 它 进行 展现 十 不 同 的 。 人 们 很 容易 起 记 这 一 
扩 ， 因 为 有 很 多 工具 把 这 两 着 混 合 在 了 一 起 。 也 就 古 说， 许多 软件 包 
提供 了 很 多 方式 来 使 得 图 形 看 起 来 更 绚丽 且 适 于 展现 ， 而 且 这 些 工具 
和 那些 用 于 增强 图 形 可 读 性 和 适用 于 分 析 的 工具 很 难 完全 区 分 开 。 举 
个 例子 ， 在 Microsoft Excel 表 中 ， 同 一 个 沫 单 ， 它 既 控 制 轴 是 否 有 日 志 
规模 ， 而 且 帮 助 决 定 是 否 使 用 很 绚丽 的 色彩 来 完成 条 形 图 。 对 于 这 两 

















种 工具 ， 前 者 对 于 数据 探索 是 至 天 重要 的 ， 而 后 着 主要 是 用 于 展现 。 
当 完 成 在 Excel 表 中 的 数据 分 析 后 ， 我 可 以 直接 把 图 形 复 制 到 
PowerPoint 中 。 由 于 这 种 无 颖 性， 使 用 该 软件 的 人 们 很 少 会 有 人 讨论 展 
现 和 探索 之 间 的 重要 区 别 。 





表 19-1 总 结 了 探索 和 展现 在 需求 上 的 主要 区 别 。 


表 19-1: 探索 和 展现 的 区 别 





探索 展现 
特征 存在 意 想不到 的 数据 展示 者 对 数据 非常 了 解 
可 能 存在 脏 数 据 数据 已 经 清洗 过 
数据 可 能 会 变 得 难以 预测 观看 者 是 被 动 的 
数据 观察 者 控制 如 何 交 互 
目标 /过 程 可 以 一 次 性 分 析 多 个 维度 为 了 推出 某 个 观点 ， 只 展示 较 少 的 维度 


多 次 改变 映射 关系 清晰 地 逐个 说 明 维 度 
寻找 趋势 和 漏洞 突出 关键 点 
把 各 点 组 织 起 来 ， 说 明 趋势 和 运动 








当然 ， 探 索 和 展现 并 不 是 完全 分 离 的 。 很 多 交互 的 Web 应 用 允许 用 
户 去 探索 一 些 维度 而 同时 并 没有 暴露 原始 数据 。 展 现 和 探索 之 间 的 关 
系 意 味 着 设计 师 需要 考虑 他 们 的 可 祝 化 的 目的 。 设 计 上 存在 权衡 ， 使 
之 不 仅仅 适用 于 动画 而 且 适 用 于 更 为 普遍 的 方方面面 。 





动画 类 型 


某 些 类 型 的 动画 最 适合 于 展现 ， 而 其 他 的 可 能 更 适合 探索 。 在 本 
章 中 ， 我 们 将 讨论 不 同类 型 的 转换 ， 从 改变 可 视 化 的 视图 到 改变 可 视 
化 的 轴 来 改变 可 视 化 中 的 数据 。 我 们 首先 一 起 来 探讨 一 些 系 统 ， 它 们 
需要 管理 两 种 不 同类 型 的 变化 。 





动态 数据 ， 动 画 中 心 重 定位 


在 2001 年 ， 对 等 网 络 (P2P) 文件 共享 成 为 被 广泛 探讨 的 一 个 话 
懒 。Gnutella 系 统 是 其 中 最 早 的 大 规模 网 络 之 一 ， 我 认为 其 值得 研究 。 
Gnutella 和 其 他 的 P2P 系 统 不 同 。 更 早 的 Napster 系 统 为 网 络 中 的 所 有 东 
西 都 保留 了 一 个 非常 详细 的 索引 BitTorrent 后 来 完全 去 掉 了 索引 。 
Gnutella 在 不 同 对 等 体 ( (per) 之 间 传 递 搜索 请 求 ， 把 问题 发 到 各 个 对 等 
体 ， 然 后 等 竺 回复 。 当 我 使 用 P2P 搜 索 来 查找 一 首 歌 ， 到 底 会 查找 多 少 
alas? 我 的 顾客 会 看 到 多 大 的 网 络 规模 呢 ? 














我 们 利用 Gnutella 的 可 视 化 客户 问 ， 来 表示 整个 网 络 。 我 们 很 快 发 
现 一 些 问 题 ， 首 和 完 ， 新 的 节 扩 不 断 在 网 络 上 出 现 ， 其 次 ， 知 道 这 些 节 
点 的 位 置 是 非常 有 意思 的 。 新 节点 的 不 断 出 现 意味 着 我 们 需要 能 够 使 
可 视 化 稳定 。 系 统 中 可 能 总 会 有 新 的 数据 进来 ， 而 且 重 要 的 是 ， 随 着 

















新 数据 进入 系统 ， 用 户 不 会 由 于 可 视 化 中 数据 总 的 变化 而 受到 干扰 。 
另 一 方面 ， 我 们 不 希望 在 有 新 数据 时 暂停 可 视 化 来 添加 数据 和 重新 给 
制 可 视 化 ， 我 们 布 望 有 一 个 系统 ， 新 的 数据 可 以 人 简单 而 且 优 雅 地 添加 
到 可 视 化 中 。 





由 于 Gnutella 网 络 使 用 基于 P2P 的 发 现 协议 ， 专 注 于 单个 节点 及 其 
邻居 节点 的 研究 往往 可 以 发 现 一 些 有 趣 的 结果 。 这 个 节点 是 否 连接 到 
一 个 中 心 “超级 节操? 它 是 否 发 送 很 多 请 求 ? 我 们 希望 能 够 重点 查看 单 
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要 求 在 不 改变 布局 的 其 余部 分 的 情况 下 能 够 改变 视觉 效果 
( (vewpoint)。 我 们 的 工具 被 命名 为 GnuTellaVision， 或 GTV(Yee 等 
2001) 。 为 满足 前 文 所 述 的 两 个 需求 我 们 使 用 了 两 种 动画 技术 。 这 个 
可 视 化 采用 了 径 向 布局 的 方式 ， 既 可 以 揭示 数据 的 变化 过 程 一 一 随 着 
连接 的 不 断 增加 而 不 断 向 外 伸展 一 一 又 有 利于 估计 中 心 节点 和 其 他 市 
点 之 间 的 跳 数 。 径 向 布局 的 优点 是 拥有 定义 民 好 的 中 心 点 和 一 系列 向 
外 伸展 的 层次 。 在 发 现 新 的 节点 时 ， 就 把 新 节点 添加 到 从 起 点 开始 的 
跳 数 的 对 应 的 环 中 。 当 有 新 的 节点 需要 添加 时 ， 只 需要 移动 少量 的 邻 
居 市 点 (可 视 化 中 的 多 数 节 点 不 需要 移动 ，。 在 运行 过 程 中 ， 这 个 可 
视 化 会 随 着 新 数据 的 到 来 而 不 断 更 新 ， 动 画 也 会 随 着 改变 ( 见 图 19- 
4) 。 
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图 19-4: 网 络 中 新 节点 出 现 前 的 GTV (AB) 和 新 节点 出 现 后 的 
GTV (AW) 一 一 由 于 节点 生成 了 更 多 的 信息 ， 它 们 的 大 小 和 颜色 也 
会 变化 ( 见 彩 图 163) 


当 用 户 查 看 一 个 节点 时 ，GTV 会 重新 调整 画面 ， 把 选中 的 市 点 放 
在 中 心 。 在 我 们 的 第 一 个 设计 中 ， 以 尽 可 能 简单 的 方式 实现 了 这 个 功 
能 :我 们 计算 了 一 种 新 的 径 向 布局 ， 然 后 线性 移动 节点 ， 从 原来 的 位 
置 移动 到 新 位 置 。 使 用 这 种 方式 生成 的 结果 非常 令 人 困惑 ， 很 多 市 点 
从 旧 位 置 移动 到 新 位 置 时 会 产生 交叉 。 第 一 种 解决 方式 是 让 节点 沿 着 
极 坐标 运动 而 且 是 始终 顺 时 针 运 动 。 在 绘制 时 ， 克 点 会 一 直 保 持 在 相 
同 的 位 置 ， 然 后 平滑 地 移动 到 新 的 位 置 〈 见 图 19-5) 。GTV 是 面向 检 
查 和 点 (对 于 用 户 而 言 可 能 是 全 新 的 ) ， 需 要 不 断 发 现 新 的 信息 ， 因 
此 ， 使 动画 能 够 帮助 用 户 跟 踩 世 点 的 路 径 从 而 促进 探索 融 非 钊 重要 














了 。 采 用 径 向 布局 拥有 较 大 的 自由 度 : 市 点 可 以 沿 着 半径 以 任何 次 序 
出 现 ， 而 且 任 何 市 点 都 可 以 出 现在 最 上 面 。 如 果 我 们 不 对 这 些 维度 进 
行 限制 ， 有 了 时 节点 甚至 会 从 屏幕 下 方 运动 到 上 方 。 我 们 希望 节点 尽 可 
能 少 地 运动 ， 因 此 我 们 添加 了 一 组 约束 条 件 ， 尽 可 能 让 节操 保持 相对 
方位 和 次 序 。 相 对 方位 保持 稳定 ， 意 味 着 维护 从 可 视 化 旧 中 心 到 新 中 
心 的 连接 线 的 相对 位 置 。 相 对 次 序 保持 稳定 ， 意 味 着 节点 的 邻居 在 环 
上 的 次 序 需 要 保持 不 变 。 图 19-6 说 明了 这 两 点 。 














图 19-5: 直角 坐标 系 (上 图 ) 的 插值 使 节点 的 路 径 交 叉 在 一 起 ， 极 坐 
标 系 的 插值 (下 图 ) 使 得 运动 变 得 平滑 ( 见 彩 图 164) 








最 后 ， 为 了 帮助 用 户 查 看 运动 古 如 何 发 生 的 ， 我 们 借鉴 了 卡通 中 
的 “渐进 - 渐 出 ”方式 。 





本 章 说 明了 一 些 值得 遵循 的 有 用 的 原则 : 


兼容 性 





选择 一 款 和 动画 兼容 的 可 视 化 。 在 GTV 中 ， 修 改 径 向 布局 很 容 
易 ， 可 以 通过 在 图 上 放置 新 的 节点 的 方式 实现 最 小 化 变化 的 效果 ， 而 
且 像 很 多 树 形 表示 一 样 ， 可 以 对 不 同 的 节点 进行 重 定 位 。 


re 


坐标 运动 


运动 应 该 出 现在 一 个 有 意义 的 坐标 可 视 化 空间 中 。 我 们 布 望 用 户 
在 可 视 化 的 动画 过 程 中 始终 能 够 定位 ， 这 样 他 们 可 以 更 好 地 预测 和 妃 
踩 运 动 。 举 个 例子 ， 在 GTV 中 ， 使 用 直角 坐标 进行 转换 会 让 用 户 难以 
预测 并 深 感 困惑 ， 相 反 地 ， 径 向 坐标 意味 着 用 户 可 以 对 过 渡 进 行 奶 
踪 ， 可 视 化 依然 是 有 意义 的 。 
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图 19-6: 动画 中 心 重 定位 : 紫色 突出 显示 的 市 点 变 成 中 心 ， 而 其 他 市 
点 集 的 相对 位 置 和 顺序 保持 不 变 (大 的 蓝 色 市 点 在 后 面 ， 而 一 组 小 的 
黄色 节点 沿 着 外 环 依 序 散 开 ， 见 彩 图 165) 


有 意义 的 运动 





里 然 动画 是 天 于 物体 的 运动 的 ， 但 不 必要 的 运动 会 让 人 困惑 。 通 
党 情况 下 ， 在 给 定 的 转换 中 ， 运 动 的 物体 越 少 越 好 。 对 GTV 动 画 的 目 
由 度 进行 限制 ， 使 可 视 化 尽 可 能 少 地 变化 ， 使 物体 基本 保持 在 相同 的 
位 置 。 


BBA PR 


在 可 视 化 中 可 能 会 存在 很 多 种 变化 。 在 讨论 GapMinder 时 ， 我 们 
讨论 了 数据 的 变化 ， 在 GTV 的 例子 中 ， 我 们 说 明了 数据 和 视图 的 变 
化 。 然 而 ， 人 们 希望 增加 的 转换 类 型 可 能 很 多 。 下 面 这 个 列表 古 基 于 
Heer 和 Robertson (2007 年 ) 的 理论 所 做 的 一 些 修改 。 每 种 转换 都 是 独 
MLA; 应 该 只 改变 一 个 元 素 。 很 多 这 类 观点 适用 于 数据 展现 和 探索 : 














对 图 片 进行 放大 和 缩小 ， 如 地 图 或 很 大 的 数据 空间 。 在 图 上 改变 
绘图 表面 改变 轴 (如 从 线性 表示 改 成 以 对 数 标尺 表示 ) 。 例 如 ， 在 地 
图 上 ， 把 Mercator 投 影 书 改 成 球形 。 


过 滤 数 据 


把 满足 特定 标准 的 数据 点 从 当前 视 匈 中 删除 。 


重 狐 排序 数据 


改变 数据 点 的 次 序 (如 依 字母 顺序 对 列 进行 排序 ) 。 


条 形 图 改 成 饼 状 图 ， 改 变 图 的 布局 ， 改 变 市 点 颜色 。 
改变 数据 


按照 一 定 的 时 间 步 长 向 前 移动 数据 ， 修 改 数据 ， 或 者 更 改 描述 的 
E (如 一 个 条 形 图 可 能 从 “万利 * 变 成 “损失”) 。 正 如 前 面 所 讨论 的 ， 
按时 间 移 动 数 据 对 于 展现 很 可 能 是 更 有 用 的 。 这 6 种 过 渡 类 型 可 以 洱 兰 
数据 可 视 化 中 的 绝 大 多 数 动画 。 过 程 可 视 化 可 能 会 有 不 同 的 分 类 ， 正 
如 科学 可 视 化 传达 的 是 数据 流 (如 穿 过 这 膀 的 空气 。 下 一 步 ， 我 们 
将 通过 几 个 例子 来 讨论 在 给 定 该 过 流 集 时 该 如 何 管理 这 些 动画 。 

















[1] Mercator 投 影 ， 广 称 正 轴 等 角 圆 柱 投影 ， 是 地 图 投影 中 影响 最 大 
的 ， 如 想 要 了 解 更 多 ， 可 以 访问 : 
http: //baike.baidu.com/view/301981.htm ° 
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在 一 人 台 计 算 机 上 一 起 探索 某 个 数据 集 的 两 个 人 之 间 存 在 一 个 基础 
问题 ， 只 有 一 个 人 有 和 女 标 。 虽 然 其 中 一 个 点 击 “ 过 滤 ” 可 能 完全 出 于 直 
先 ， 但 是 男 一 个 用 户 可 能 无 法 仍 味 发 生 了 什么 事情 。 这 一 点 介 于 探索 
和 展示 之 间 : 动画 的 一 个 主要 目标 是 促使 第 二 个 用 户 能 够 跟 上 第 一 个 
用 户 做 出 的 改动 ; 但是， 第 一 个 用 户 可 能 并 不 清楚 日 己 想 要 做 什么 。 
动画 可 以 是 多 个 可 视 化 之 间 的 一 种 过 渡 ， 使 得 第 二 个 人 (或 者 是 一 个 
观众 ) 能 够 跟 上 。 在 过 去 几 年 ， 我 们 一 直 在 尝试 以 不 同 的 方式 来 显示 
数据 转换 和 对 已 知 图 表 的 展现 ， 如 散 点 图 、 条 形 图 其 至 是 饼 图 。 














DynaVis 是 一 个 动画 可 视 化 框架 ， 我 们 采用 了 该 框架 。Jeff Heer, 
现在 是 斯 坦 福 的 教授 ， 他 暑期 对 我 们 做 了 访问 ， 使 我 们 有 机 会 对 很 多 
可 能 的 应 用 方式 进行 了 党 试 。 在 他 发 表 的 论文 中 比较 详细 地 描述 了 这 
次 讨论 ( (Her 和 Robertson 2007) ° 


在 DynaVis 框 染 中 ， 每 个 条 形 栏 、 每 个 点 或 每 条 线 都 代表 二 维 空间 
中 的 一 个 对 象 ， 因 此 我 们 可 以 让 本 章 前 面 描述 的 所 有 转换 平滑 运动 。 
很 多 转换 都 很 清晰 : 举 个 例子 ， 从 散 点 图 中 过 滤 一 个 点 ， 只 需要 把 这 
个 点 隐 去 。 但 是 ， 在 一 些 情况 下 可 以 用 更 为 有 趣 的 方式 实现 :; 展示 类 
型 变化 的 ， 在 菏 个 时 刻 有 多 个 改变 同时 发 生 的 。 当 展现 改变 时 ， 我 们 
尽力 遵守 几 条 基本 原则 。 以 下 古 最 重要 的 两 条 : 











一 次 做 一 件 事 





确保 可 视 化 不 需要 同时 做 出 多 个 变化 。 这 意味 着 该 可 视 化 被 分 解 
成 了 多 个 步骤 ， 每 个 阶段 可 以 确保 在 下 一 步 开始 之 前 已 经 完成 。 


HERA RT 





在 每 一 步 的 任意 时 刻 都 需要 确保 可 视 化 是 有 意义 的 ， 即 确保 存在 
一 个 从 数据 到 可 视 化 的 映 映 。 举 个 例子 ， 对 条 形 图 的 条 形 栏 进 行 重 命 
名 将 会 是 无 效 的 ， 映 冉 的 基础 是 每 个 条 形 栏 代表 一 个 x 轴 值 。 





图 19-7 是 将 条 形 图 转换 为 饼 状 图 的 首次 特 试 。 通 过 这 次 转换 发 现 了 
很 多 积极 方面 。 举 个 例子 ， 条 形 图 的 各 个 条 形 栏 不 会 每 次 全 部 移动 ， 
因此 人 有 眼 能 够 很 容易 地 跟 上 运动 ， 而 在 动画 过 程 中 条 形 栏 保持 其 特征 
值 不 变 。 虽 然 在 条 形 栏 因为 运动 而 互相 交 谷 时 存在 一 些 问题 ， 但 它们 
可 以 按照 平滑 轨迹 运动 ， 这 样 预测 轨迹 将 在 哪里 结束 也 是 可 行 的 。 基 
后 ， 动 画 制作 过 程 进行 了 良好 的 分 解 : 所 有 的 模子 首先 会 全 部 生成 
好 ， 然 后 才 组 合成 一 个 完整 的 饼 状 图 。 














但 是 ， 这 种 可 视 化 有 一 个 非常 大 的 缺陷 。 条 形 栏 的 长 度 被 换算 成 
模子 的 周 长 ， 因 此 ， 条 形 栏 越 长 ， 其 对 应 的 枫 子 的 周 长 也 越 长 。 但 

， 在 最 终 的 饼 图 中 ， 长 度 越 长 的 条 形 栏 ， 则 其 对 应 的 模子 将 更 宽 。 

这 意味 着 条 形 栏 将 变 得 又 宽 又 长 ， 或 者 又 窄 又 短 。 这 反 过 来 意味 着 可 
视 化 并 没有 适应 于 一 个 恒定 规则 (如 “像素 数 和 数据 值 成 比例 ”) 。 





由 此 可 以 引出 下 一 个 原则 : 


保持 不 变 





虽然 第 一 条 规则 提 到 了 数据 元 隶 和 显示 标志 之 间 的 关系 ， 但 走 该 
规则 限定 的 是 数据 值 和 可 视 化 之 间 的 关系 。 如 有 果 数 据 值 不 变 ， 则 在 整 
个 可 视 化 过 程 中 系统 应 该 保持 这 些 值 不 变 。 举 个 例子 ， 如 来 每 个 条 形 
栏 的 高 度 和 与 其 对 应 的 数据 点 的 值 一 致 ， 条 形 栏 应 该 在 动画 中 保持 相 








图 19-8 中 的 更 为 成 功 的 条 形 图 和 人 饼 图 动画 阐明 了 这 两 个 原则 。 该 图 
说 明了 绘图 实体 (条 形 栏 、 折 线 或 者 棉 子 ) 和 底层 数据 之 间 的 一 一 对 
应 关系 。 编 排 方式 从 未 改变 : 最 左边 的 条 形 栏 (“A”) 对 应 最 左边 的 饼 
图 切片 (也 是 用 “A” 表 示 ) 。 不 变量 对 应 于 条 形 图 的 各 个 条 形 栏 的 长 
度 ， 它 和 数据 值 保持 一 怪 。 尽管 我 们 不 准备 在 这 里 详细 说 明 从 条 形 图 
到 折线 图 的 转换 ， 但 是 ， 实 际 转换 时 也 遵循 了 相同 的 原则 : 最 左上 方 
条 形 栏 收缩 成 一 条 折线 之 后 ， 将 仍 保留 在 最 左上 方 。 

















图 19-7; 条 形 图 到 饼 图 的 不 太 成 功 的 动画 : 条 形 图 中 的 较 长 的 条 形 栏 
在 饼 图 上 变 成 了 又 胖 又 长 的 棉 于 ;， 短 条 形 柱 变 成 了 又 瘦 义 短 的 模子 ; 
然后 所 有 的 模子 组 合 在 一 起 形成 了 一 张 饼 图 ( 见 彩 图 166) 
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Al 19-8: 条 形 图 到 饼 图 的 相对 比较 成 功 的 动画 :条 形 栏 的 长 度 保 持 不 
变 ， 首 先 变 成 弧 形 ， 其 次 合 在 一 起 成 为 一 个 环 ， 最 后 组 合成 为 一 张 饼 








图 ( 见 彩 图 167) 


另外 一 种 有 趣 的 状况 促使 我 们 在 可 视 化 中 引入 卡通 中 的 分 解 概 
念 。 在 GnuTellaVision 可 视 化 中 ， 我 们 可 以 在 每 个 运动 中 重新 定位 中 
心 ， 但 是 在 DynaVis 可 视 化 中 ， 把 一 次 转换 分 解 成 两 个 步骤 更 有 意义 
比如 ， 在 每 个 例子 中 ， 我 们 保证 每 次 只 改变 一 种 属性 : 








AS MARA SER Te, BATS cH Ke AIA 
栏 ， 然 后 去 挥 对 这 : 些 条 形 栏 的 排序 。 如 有 果 不 对 数据 进行 过 滤 ， 我 们 需 
要 为 增加 的 条 形 栏 提供 空间 ， 相 应 地 ， 条 形 栏 将 会 变 高 





为 了 拉 长 或 压缩 一 个 条 形 栏 ， 如 当 数 据 变化 时 ， 我 们 可 能 需要 改 
变 轴 。 想 象 把 条 形 -图 的 各 个 点 的 值 从 (1，2，3，4，5) 变 成 (1，2 
10, 4, 5) 一 一 y 轴 当然 应 该 增长 来 适应 新 的 值 。 如 果 我 们 先 增 大 条 形 
栏 ， 那 它 将 会 扩展 到 屏幕 外 面 ; 那么 ， 我 们 必须 在 改变 条 形 栏 前 改变 
轴 。 





当 对 选中 的 一 些 条 形 栏 进行 排序 时 ， 如 果 立 即 对 它们 进行 排序 会 
导致 所 有 的 条 形 栏 ' 马 上 通过 中 心 。 这 很 让 人 困惑 : 很 难 区 分 各 个 条 形 
栏 。 稍 微 降低 条 形 栏 的 调整 速度 ， 它 们 将 在 很 短 的 时 间 内 分 逐渐 分 
开 ， 我 们 发 现 这 种 排序 方式 要 更 为 清晰 。 





但 是 ， 分 解 并 不 总 是 适当 的 。 在 Heer 和 Robertson 的 项 目 报告 
2007 年 ) 中 ， 他 们 发 现 一 些 动画 分 解 之 后 变 得 更 难 理解 了 。 特 别 
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化 壬 试 对 转换 过 程 进行 分 解 ， 首先 将 各 个 分 段 抽 取出 来 以 外 部 或 内 部 
环 的 形式 展现 ， 对 它们 的 大 小 进行 调整 ， 然 后 再 将 它们 合并 成 为 一 整 
张 贺 环 图 或 者 饼 图 。 虽 然 这 使 得 变化 更 明显 ， 但 是 它 增 加 了 一 种 行 
为 ， 而 这 种 行为 潜在 来 看 也 有 可 能 令 人 感到 困惑 。Heer 和 Robertson 同 
时 收集 了 定性 结 末 和 定量 结 末 。 定 量 结果 ， 即 有 多 少 用 户 喜 欢 动画 ; 
定性 结 末 ， 即 找 出 哪些 动画 能 够 使 用 户 最 为 准确 地 回答 问题 。 他 们 发 
现 ， 使 用 动画 方式 时 ， 用 户 会 更 易于 回答 取 值 随时 间 变 化 的 问题 ; 此 
外 ， 分 成 多 个 阶段 但 每 个 阶段 只 有 一 种 转换 的 动画 比 那 些 同 时 执行 了 
很 多 种 转换 的 动画 的 效果 要 好 得 多 。 








基于 这 些 原则 ， 显 然 这 类 动画 更 有 可 能 有 利于 帮助 用 户 理 解 转 
换 : 相 比 于 演讲 着 抛 出 一 系列 图 表 并 强迫 观众 适应 一 个 又 一 个 的 幻灯 
片 ，DynaVis 的 框架 允许 用 户 在 整个 过 程 中 部 保持 集中 。 


动画 原则 





关于 动画 的 原则 ， 已 经 有 一 些 有 益 的 尝试 。Tversky、Morrison 和 


Bétrancourt (2002 年 ) 在 他 们 论文 的 最 后 给 出 了 两 条 通用 的 指导 原 


Ml): 


vA AY 
须 总 





可 视 化 应 该 保持 一 致 性 和 易 理解 性 。 前 者 意味 着 屏幕 上 的 标志 必 
是 和 底层 数据 相关 联 。 后 者 表示 可 视 化 必须 易于 理解 。 我 们 前 面 


给 出 的 几 条 原则 也 在 这 两 条 原则 的 范畴 之 内 。Heer 和 Robertson (2007 


年 ) 
出 ， 


ie 


BY, 


对 DynaVis 框 架 的 可 视 化 的 讨论 中 男 外 给 出 了 一 些 相 关 的 指导 原 
Zongker 和 Salesin (2003 年 ) 在 幻灯 片 中 给 出 的 是 动画 相关 的 讨 
Freidrich 和 Eades (2002 年 ) 给 出 的 是 图 形 相 关 的 讨论 。 


我 们 在 本 章 中 已 经 讨论 过 的 原则 如 下 : 


分 段 展示 








一 次 性 转换 太 多 会 分 散人 们 的 注意 力 。 如 果 可 以 每 次 只 改变 一 件 








， 那 就 只 改变 一 件 事 。 男 一 方面 ， 有 时 多 个 变化 必须 同时 发 生 ， 这 


可 以 将 它们 分 解 为 多 个 步 又 逐步 展示 。 


兼容 性 


动画 造成 困扰 的 可 视 化 都 是 因 为 用 户 难以 跟踪 变化 。 举 个 例子 ， 


给 一 个 条 形 图 增加 一 个 条 形 栏 并 不 会 困扰 用 户 〈 整 个 集合 可 以 平 清 变 





动 ) ， 而 在 条 形 栏 中 另外 增加 一 个 序列 就 可 能 让 人 困惑 了 。 但 是 ， 一 
个 四 方形 的 树 形 图 十 根据 尺寸 按照 贫 梦 的 方式 布局 的 ， 一 个 矩形 的 变 
大 可 能 需要 改变 所 有 和 矩形 的 位 置 ， 这 会 让 人 深 感 困惑 。 


必要 的 移动 

等 别 地 ， 避 免 不 必 要 的 移动 。 这 意味 着 我 们 希望 确保 移动 都 是 有 
意义 的 一 一 也 就 是 说 ， 我 们 将 只 对 变化 进行 动画 展示 。 总 的 来 说 ， 
像 应 该 总 是 可 理解 的 。 正 如 对 DynaVis 框 架 的 用 户 测试 结果 所 表明 的 ， 
过 小 的 动作 一 一 即使 是 有 意义 的 动作 ， 也 会 让 人 困惑 。 





有 意义 的 移动 





移动 的 坐标 空间 和 类 型 应 该 是 有 意义 的 。 这 也 说 明了 之 前 提 到 的 
两 点 : 保留 有 意义 的 映射 并 维持 不 变性 。 


确定 目 己 坚持 了 这 些 原则 会 帮助 你 确保 动画 古 在 沿 着 正确 的 方 癌 


结束 语 ， 是 否 采用 动画 





在 本 章 ， 我 们 讨论 了 数据 展现 和 探索 之 间 的 区 别 、 可 视 化 中 可 能 
会 变动 的 各 种 层次 ， 以 及 一 些 确保 动画 可 视 化 有 效 的 原则 。 


因此 ， 到 了 现在 这 个 阶段 ， 你 可 能 正在 采 着 目 己 的 可 视 化 ， 试 着 
决定 是 否 要 采用 动画 的 方式 来 展示 。 本 章 不 断 询问 的 问题 是 :该 动画 
的 功能 是 什么 ? 如 采 是 为 了 使 用 户 在 多 个 视 岁 之 间 能 够 平滑 过 渡 ， 那 
么 很 可 能 是 有 用 的 。 如 采用 户 是 为 了 比较 “之 前 ”和 “之 后 ”， 动 画 很 可 
能 没有 用 处 。 


用 户 和 希望 理解 变化 的 原因 和 变化 的 具体 内 容 。 如 果 屏 幕 上 的 所 有 
东西 部 需要 移动 ， 能 够 目 动 切 换 到 新 的 图 像 可 能 会 更 好 ， 这 可 以 让 户 
可 以 更 易于 退路 不 同 之 处 。 最 后 ， 动 画意 味 着 可 视 化 的 打印 会 更 困 
难 。 各 个 帧 应 该 都 是 有 意义 的 ， 这 样 用 户 可 以 捕获 并 融会 贯通 这 些 图 
片 。 动 画 增加 了 复杂 性 ， 该 复杂 性 应 该 有 所 回报 。 
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以 下 是 和 本 章 内 容 相 关 的 一 些 动 画 数据 可 视 化 项 目 ， 你 可 能 会 希 


.很 多 研究 人 员 开 始 使 用 Pad++ 中 的 缩放 和 拖 搜 作为 可 视 化 的 基本 
操作 ，Pad++ 是 一 个 在 大 空间 中 放置 数据 的 可 伸缩 架构 ( (Bderson 和 
Hollan 1994) ° 


-Scatterdice(Elmqvist ` DragicevicflFekete 2008) 发 现 了 一 种 通过 
旋转 第 三 维度 来 实现 散 点 图 之 间 转 换 的 方式 。 


: 树 形 图 数据 可 视 化 包括 ConeTrees(Card、Robertson 和 Mackinlay 
1991) 、CandidTree(Lee 等 2007) 和 Polyarchy(Robertson 等 2002) ° it 
究 人 员 通 过 缩放 (扭曲 树 形 图 ( (Banch 和 Lecolinet 2007) 来 探索 树 
形 图 动画 和 在 三 维 空 间 中 的 运动 ( (Badh、Car 和 Kljun 2005) ° 





图像 布局 往往 用 动画 展示 布局 的 过 程 ， 在 过 去 10 年 中 ， 图 像 绘画 
社区 开始 考虑 基于 底层 数据 来 更 新 图 像 。 除 了 前 面 提 到 的 作品 
( (Fiedrich 和 Eades 2002) ， 还 有 GraphAEL(Erten 等 2003) ° 
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可 视 化 : 是 一 头 “ 大 象 ” 





可 视 化 ， 在 第 一 个 人 眼 里 是 图 形 图 表 和 投资 回报 率 ( RD; 在 第 二 
个 人 眼 里 却 是 插图 、 生 动 的 隐喻 以 及 画廊 开幕 ;在 第 三 个 人 眼 里 它 只 
是 奇妙 的 见 余 的 复合 词 : 信息 图 形 。 可 视 化 ， 这 个 术语 就 像 一 个 抽象 
的 太 妃 糖 一 样 需要 人 们 不 断 咀 嚼 、 反 复 品 味 。 它 就 像 三 个 盲人 摸 象 的 
故事 。 一 个 措 到 大 象 的 尾巴 ， 说 “大 象 像 一 条 绳子 ”。 另 一 个 摸 到 大 象 
的 脚 ， 说 “大 象 像 一 棵 树桩 ”。 第 三 个 人 摸 着 大 象 的 鼻子 ， 说 “大 象 像 一 
条 蛇 *。 他 们 都 不 是 完全 错误 的 ， 但 是 也 没有 一 个 是 完全 正确 的 ， 因 为 
没有 一 个 人 可 以 看 到 大 象 的 整体 ， 如 图 20-1 所 示 。 





可 视 化 只 是 你 能 够 看 到 的 某 些 部 分 (全 部 ) 。 它 既是 整个 马赛 
克 ， 也 是 单个 内 内 发 光 的 镶 蛮 物 。 它 不 仅仅 是 图 表 ， 也 不 仅仅 是 视觉 
隐喻 ， 它 不 仅仅 是 取代 子弹 点 的 可 工作 的 图 形 设计 ， 也 不 仅仅 十 描绘 
思想 ; 同样 ， 它 不 仅仅 是 数据 分 析 。 这 些 都 是 更 大 的 概念 中 的 一 小 
片 。 


真 下 优秀、 美丽、 强大 的 可 视 化 ， 即 触及 思想 和 内 心 深 处 的 可 视 
化 ， 不 仅仅 是 关于 图 像 、 快 照 和 通过 玻璃 窗 的 查看 ， 如 图 20-2 所 示 。 
强大 的 可 视 化 在 大 象 测试 中 能 够 通过 : 几乎 无 法 形容 ， 但 古 一 眼 束 能 








够 识别 。 本 章 将 讨论 这 头 “ 大 象 ” 的 方方面面 。 总 之 ， 这 些 讨论 将 有 助 
于 绘 出 一 幅 能 够 整体 上 清晰 描述 可 视 化 对 象 的 图 像 。 
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A= Book Smarts 
B= Street smarts , 
C= Intemship involving the Copy mahae 
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可 视 化 : 是 一 门 乙 术 


可 视 化 中 有 一 张 图 片 ， 还 有 一 条 信息 。 人 们 需要 “审问 之 ”`\“ 慎 思 
之 ”并 “ 明 辨 之 *。 可视化 的 创作 者 们 也 因此 而 获得 了 更 长 的 工作 时 间 。 
质量 是 主观 的 ， 而 美学 总 会 有 和 争议 一 一 但 钙 内 在 的 艺术 性 却 钙 显 而 易 
见 的 ， 好 比 色情 。 忆 术 是 只 有 当 你 看 到 时 才能 知道 ， 而 且 无 法 提早 知 
道 ， 如 图 20-3 所 示 。 而 可 视 化 古 一 门 艺 术 已 经 广 为 认 可 。 











20-3: 可 视 化 的 “居然 大 悟 ” 时 刻 








AACS A EES Tole: HG > B bea as BAY 
黑色 镜框 的 有 眼镜。 当然 ， 只 要 一 件 事情 被 贴 上 艺术 创作 的 标签 ， 其 进 
入 门槛 整 会 变 高 。 那 些 认 为 目 己 不 具备 创造 力 以 及 从 未 认为 目 己 具 
有 “创造 性 "的 人 会 因此 而 回避 可 祝 化 。 这 太 糟 糕 了 一 一 因为 你 不 需要 
成 为 Rembrandt， 只 要 你 有 一 些 想法 就 可 以 画 几 笔 并 能 为 人 们 所 了 解 。 

















可 视 化 内 在 的 美 《有 争议 的 ) 在 于 图 像 背 后 的 思想 :你 的 视网膜 
杆 和 视网膜 锥 看 到 的 线条 和 形状 所 要 说 明 的 概念 。 从 技术 上 说 ， 只 
有 竺 土 ， 任 何人 都 可 以 进行 雕刻 ， 而 任何 人 只 要 有 可 以 可 视 化 表达 的 
思想 束 可 以 创建 可 视 化 ， 如 图 20-4 所 示 。 雕 塑 或 可 视 化 的 质量 往往 都 
古 有 和 争议 的 。 任 何 艺 术 品 或 图 像 的 质量 都 是 值得 商检 的 。 











可 视 化 ， 从 观察 者 的 眼 里 得 到 思想 。 
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20-4: 不 要 超出 力所能及 的 范围 


可 视 化 : ee SS 


有 一 个 小 程序 一 一 你 可 能 已 经 听 过 它 。 它 很 便宜 ， 几 乎 到 处 都 能 
见 到 ， 它 是 一 个 可 爱 的 中 间 管 理 件 工具 ， 能 把 可 视 化 辅助 想法 转换 成 
卡其 色 。 这 个 小 程序 就 是 PowerPoint， 把 可 视 化 转换 到 了 商业 领域 ， 
如 图 20-5 所 示 。 
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不 可 否认 : HERS AR o FB AACR CR AA a 
燥 乏 味 ? 如 末 你 在 大 学 中 教授 数学 ， 一 定 要 确保 在 你 的 讲稿 中 包含 了 
很 多 图 片 。 当 癌 董 事 会 、 一 位 潜在 客户 或 中 年 级 的 MBA 同 学 做 报告 
时 ， 如 果 没 有 PowerPoint， 在 最 好 的 情况 下 会 被 认为 很 奇怪 ， 在 最 差 
的 情况 下 会 被 认为 准备 不 充分 ( 见 图 20-6) 。 这 是 什么 原因 呢 ? 因 为 
可 视 化 是 一 款 优秀 的 说 服 工具 ， 说 服 是 销售 的 另外 一 种 表达 方式 。 








Work 


图 20-6: 想法 可 以 为 你 工作 


合并 、 收购、 谈判 、 广 告 和 宣传 。 人 们 每 天 都 在 传递 商务 通信 信 
思 。 我 的 撩 巾 纸 在 这 里 。 这 有 征 我 在 刚刚 的 四 小 时 会 议 上 提出 的 战略 涂 
75 ° 


眼见 为 实 。 相 信之 后 ， 人 们 才 会 认同 。 你 觉得 公司 总 部 、 政 治 “ 王 
绷 ” 和 瘤 焊 的 教 笔 都 是 如 何 建立 起 来 的 ? 


可 视 化 : 是 永恒 的 








法 国 那些 著名 的 洞 从 壁画 不 是 行 做 事情 列表 、 人 句子、 单词 、 甚 至 
也 不 是 字母 。 它 们 十 图 像 。 几 二 年 前 ， 和 象形 子 中 的 每 个 字符 都 十 用 图 
像 表示 的 。 现 在 的 书面 汉语 也 十 如 此 。 我 们 在 学 会 单词 之 前 先 学 
微笑 。 语 言 再 强大 ， 也 比 不 上 可 视 化 直接 或 形象 ， 如 图 20-7 所 示 。 








a a "ee 
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React On 
图 20-7; 一 样 的 老 故 事 ， 不 一 样 的 作者 


照片 、 油 画 或 者 是 天 气 预 报 的 绿色 屏 医 上 的 地 图 ， 比 起 文字 ， 可 
以 让 我 们 学 得 更 多 更 快 。 我 们 可 以 连续 听 几 个 小 时 关于 极度 穷困 的 介 
绍 故事 ， 或 者 可 以 对 着 一 幅 一 只 芝麻 在 一 个 瘦弱 的 小 孩 面前 徘徊 的 匈 
片 持 续 几 分 钟 。 不 论语 言 表 达 多 么 强大 ， 使 用 图 像 可 以 更 快 地 分 至 夏 


事 。 虽 然 我 们 已 经 发 展 成 为 了 先进 的 社会 ， 已 经 能 够 运用 复杂 的 词 
汇 、 语 言 以 及 修女 们 在 我 们 孩童 期 间 教授 的 那些 成 语 、 隐 喻 





但 是 ， 我 们 仍然 可 以 不 通过 语言 而 只 是 通过 图 片 进行 交流 ， 如 图 20-8 
Ds 
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20-8: 眼见 为 实 





想象 一 下 : 上 古代 用 泥土 画 的 洞穴 壁画 和 形状 。 没 有 梵文 ， 没有 诗 
词 ， 没 有 PowerPoint ° 


可 视 化 : 此 时 此 刻 


哪 一 种 含义 更 深刻 : 名 字 还 是 标识 ? 人 们 如 何 认 出 你 : 是 你 的 头 
像 还 是 你 的 简历 ? 不 动产 的 最 珍 贯 之 处 在 哪里 ; 是 一 个 著名 的 网 址 
( 《ULD) 还 是 在 一 个 著名 邮政 区 域 的 一 个 地 段 ? 今天 ， 标 识 可 以 讲述 史 
WAE ° ERA TERTATA e Wwb TRADES, ARE 
场 、 岛 屿 和 街区 。 











与 以 往 相 比 ， 我 们 现在 是 在 信息 海洋 中 畅游 。 我 们 在 对 数据 进行 
清洗 。 每 天 生成 的 信息 是 人 类 世界 从 未 有 过 的 或 者 从 未 期 望 能 够 理解 
的 ， 如 图 20-9 所 示 。 因 此 ， 我 们 把 可 视 化 作为 收集 、 浓 缩 和 传递 信息 
的 工具 。 









































Information * 








图 20-9: 水 ， 还 是 水 ， 到 处 都 是 水 


视觉 处 理 数据 。 祝 觉 把 大 量 矮 胖 、 答 拙 、 墨 色 和 日 色 的 电子 表格 
压缩 成 光 祖 、 彩 色 的 图 形 。 视 觉 能 够 揭示 大 量 数 据 中 的 模式 ， 它 们 运 
用 复 淋 、 难 以 理解 的 理论 ， 可 以 优雅 地 解释 数据 ， 如 图 20-10 所 示 。 把 
数据 点 想象 成 冰 分 子 。 可 视 化 能 够 生成 “雪花 ”， 它 是 对 很 多 小 的 信息 
片 的 华丽 、 有 机 的 编排 布局 。 





当 我 们 想 要 弄 伐 身边 的 信息 海洋 时 ， 我 们 需要 制作 可 视 化 。 这 是 
言 息 时 代 。 因 此 ， 也 可 以 说 ， 这 也 是 一 个 可 视 化 时 代 。 
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A= Dollars B= Data Punts — 
C= Problems we wish we had 


20-10: 使 用 任何 一 种 方式 获取 你 所 需要 的 


可 视 化 : 是 编码 的 


字母 代表 发 音 ， 文 字 代 表 思 想 。 我 们 组 合 整理 句子 以 讲述 故事 。 
你 的 汽车 引擎 尝 的 闻 锦 能 够 揭秘 你 的 收入 水 平 。 绥 纹 能 揭秘 你 的 年 
堆 。 我 们 通过 编码 来 通信 一 一 听觉 、 视 觉 、 触 党 和 社会 性 。 即 使 我 们 
的 DNA 都 是 一 种 编码 一 一 我 们 从 头 开始 构建 ， 通 过 数据 的 表现 位 来 通 
信 ， 如 图 20-11 所 示 。 可 视 化 只 是 男 一 种 编码 通信 方式 ， 图 形 的 轴线 古 
关联 人 写 ， 编 辑 卡 通 字 符 代表 意识 形态 。 摄 影 和 绘画 表示 历史 。 











A gy ot 
=- 
A Pick-up line 


20-11: 甩 眼 肯 眼 ， 轻 挪 轻 挪 





由 于 可 视 化 变 成 了 更 大 的 调查 领域 一 在 大 学 、 亏 术 工 作 室 和 留 
言 板 一 一 符号 学 的 概念 将 会 被 人 们 更 频繁 地 提 及 。 当 我 们 更 仔细 地 查 
看 标识 和 符 和 号， 我 们 会 发 现 使 用 可 视 化 进行 的 交流 和 用 文字 的 几乎 一 
样 多 。 我 们 使 用 符号 来 表达 目 己 ， 从 肥 起 一 个 手指 癌 冯 红 灯 的 司机 发 
出 警告 、 到 心理 爱情 短信 、 到 使 用 日 益 陈 腐 的 表情 符号 。 





隐喻 、 成 语 、 内 在 的 笑话 (或 者 是 文学 典故 ， 如 果 你 是 英语 专 
业 ) 。 我 们 的 交流 涉及 符号 的 很 多 层面 ， 每 次 交谈 都 需要 对 很 多 编码 
进行 翻译 。 可 视 化 是 表现 思想 的 另 一 种 方式 ;是 另 一 种 不 包含 很 多 秘 
密 的 编码 方式 。 可 视 化 展示 越 清晰 ， 能 够 破解 该 编码 的 人 就 越 多 。 











帮派 纹身 、Rorschach 测 试 译 上 ， 包 含 很 多 解释 的 各 种 艺术 作品 
一 一 这 些 只 是 那些 包含 很 多 隐藏 的 《有 时 深远 的 ) 洱 义 的 众多 可 视 化 
中 的 几 个 例 和 于 ， 如 图 20-12 所 示 。 






Rules 
= 四 上 一 
Masonic. Ciphets 


20-12: 秘密 和 /或 社会 
[1] Rorschachifll isa Hilts Mi] Xt si 图 案 的 反应 来 分 析 其 性 格 的 
SEI ° e 


可 视 化 : 是 清晰 的 





可 视 化 的 美丽 之 一 在 于 其 简单 性 。 纯 粹 的 请 晰 ! 无 比 的 清晰 ! 超 
级 简单 ! 图 像 可 以 为 演讲 、 专 题 文 草 和 年 度 报告 设置 基调 。 我 们 期 
待 、 查 看 并 理解 。 从 第 一 眼 到 “ 啊 哈 ， 我 明日 啦 ! ”， 只 是 经 过 了 几 秒 
钟 的 时 间 。 


我 们 并 非 总 是 有 时 间 来 剖析 泗 义 或 读 10 页 的 总 结 。 我 们 想 要 查看 
一 个 图 形 ， 碍 看 一 年 又 一 年 的 结 采 。 图 像 非常 适合 快速 表达 信息 
晰 可 以 使 我 们 能 够 理解 并 坚持 。 模 楼 两 可 需要 花费 时 间 去 琢磨 一 一 我 
们 没有 那么 多 时 间 。 


我 们 见 到 一 个 人 时 ， 在 最 开始 的 10 秒 内 了 解 到 的 信息 要 比 花费 了 
几 个 小 时 使 用 百度 搜索 到 的 信息 还 要 多 得 多 。 我 们 可 以 通过 封面 来 评 
判 一 本 书 ， 通 过 外 观 评判 一 由 房子 。 看 到 自由 女神 像 上 缠绕 着 绞 索 的 
图 片 ， 我 们 能 够 推测 出 存在 着 不 公正 的 现象 。 我 们 看 到 总 统 的 竞选 海 
报 上 绘制 着 魔 时 的 角 ， 就 知道 有 人 不 喜欢 他 。 视 觉 所 传递 的 信息 非常 
清晰 明确 ， 如 图 20-13 所 示 “。 但 只 是 由 于 该 信息 是 显而易见 的 ， 可 能 并 
不 总 是 真实 的 。 

















Bathrooms 





A= Evaluation ( and sometimes B) 
B= Confusion (and Sometimes A) 
图 20-13: 都 是 场景 
我 们 不 信任 包含 偏见 的 新 闻 来 源 。 当 一 个 提议 听 起 来 很 不 错 ， 其 
书面 材料 往往 都 很 密 很 长 ， 不 利于 我 们 。 广 告 的 真实 性 一 直 不 只 是 个 
神话 。 当 凝视 一 个 美丽 的 可 视 化 时 要 记 住 这 一 点 。 其 信息 可 能 很 清晰 


明显 ， 但 是 其 背后 的 动机 可 能 需要 花费 更 多 的 时 间 来 观察 ( 见 图 20- 
14) ° 





可 视 化 : 是 可 学 习 的 


任何 形式 的 信息 展示 ， 都 是 面 同 所 有 人 的 ， 供 所 有 人 创造 和 消费 
的 。 从 你 的 发 型 到 外 套 颜 色 ， 你 都 在 发 送 视觉 信号 和 传达 视觉 信息 。 
每 个 人 都 可 以 拿 起 一 文笔 ,在 墙 上 或 级 上 画 一 条 线 。 类 似 地 ， 像 到 可 
以 重新 布局 ， 来 表达 任何 会 用 电脑 的 人 的 想法 。 





A=[ove B- Advertising C= Money 


20-14: 问 问 自己 为 什么 要 看 眼前 的 事物 


你 不 必 会 讲 意 大 利 语 也 可 以 欣赏 米 开朗 基 罗 的 艺术 品 。 任 何 参 观 
罗浮 宫 的 人 ， 都 深 受 局 发 。 同 样 ， 遇 儿 一 字 不 识 ， 也 可 以 识别 出 人 脸 


和 表情 。 


号 像 通 过 学 习 单 词 来 掌握 阅读 和 沟通 ， 通 过 实践 成 为 专业 的 视觉 
沟通 者 也 是 可 能 的 。 绘 画 是 在 纸 上 把 情景 翻译 出 来 的 能 属于 直 
接 翻 译 。 可 视 化 是 把 思想 表达 在 纸 上 一 一 采用 数据 ， 并 把 它 提 炼 成 一 
个 概念 。 不 要 把 这 二 者 混为一谈 。 思 考 过 程 是 不 同 的 ， 即 使 笔 纸 能 把 
这 两 项 技能 结合 起 来 。 思 想 (概念 、 理 论 、 等 式 、 意 见 、 过 程 》 和 一 
饶 水 果 的 静物 画 表现 不 同 ， 如 图 20-15 所 示 。 











A=Good teacher 
B= Bad job 


C ompeten ce 


Experience 


图 20-15: 知道 越 多 ， 做 得 越 多 


Ae TA 


符号 和 隐喻 可 以 是 非常 懒散 、 宴 乱 的 描绘 方式 ， 但 依然 强大 且 清 
晰 。 记 下 下 一 次 你 在 寄 玻 璃 上 的 蒸汽 上 画 的 心 形 独 案 ， 如 图 20-16 所 
示 。 





A=Dream B= Reality C= Kesumé 


20-16: 你 的 所 作 所 为 决定 你 是 谁 


可 视 化 : 是 一 个 流行 语 





因此 ， 它 是 一 个 主题 吗 ( 见 图 20-17) ? 可 视 化 仅仅 是 席卷 商业 杂 
志 、 招 标书 和 学 科教 学 大 纲 的 最 新 的 流行 语 吗 ? Ce SPA TIN TT 
起 来 显得 智慧 而 吹捧 的 另 一 个 流行 语 吗 ? 还 是 它 并 没有 那么 潮流 ， 而 
是 对 我 们 当前 的 数据 饱和 状况 的 一 个 反应 ? 





20-17: 欢迎 来 到 因特网 





可 视 化 得 到 了 人 们 的 广泛 关注 : EB Me BO 
约 时 间 ， 理 解 可 视 化 有 是 我 们 与 生 俱 来 的 能 力 。 精 心 设计 的 可 视 化 引 人 
注目 ， 看 起 来 美丽 优雅 ， 让 人 至 受 。 而 且 有 非常 多 的 可 视 化 软件 可 以 
利用 ， 现 在 征 把 想法 变 成 镜像 的 最 佳 时 期 。 因 此 ， 看 起 来 可 视 化 的 流 
行 是 必然 的 ， 我们 需要 沛 选 的 数据 越 多 ， 残 越 容易 把 数据 转化 成 图 
像 ， 也 越 容易 把 图 像 和 文字 并 列 显示 ， 我 们 越 想 说 服 别 人 提升 目 己 ， 
在 我 们 里 边 看 到 的 可 视 化 束 越 多 。 








可 视 化 这 个 词 本 身 很 受 欢 迎 ， 其 思想 很 受 欢迎 ， 其 应 用 也 很 受 欢 
迎 。 可 视 化 帮助 我 们 交流 。 它 能 够 促使 进 联系 。 只 要 这 两 个 观点 是 正 
确 的 ， 我 们 只 需要 祈祷 可 视 化 会 向 “ 甲 膏 虫 ”一 样 受 欢迎 ， 而 不 是 像 “ 兢 
童 合唱 团 ”( (Mnkees) 一 样 ， 如 图 20-18 所 示 。 


Pet Pojed Workhorse. 


. Pet Rock 


Useful ness 





P opul ar ity 


20-18: 你 参与 的 是 一 场 变 早 还 是 只 是 一 个 时 淹 ? 


可 视 化 : ze SLI 


如 采 你 要 连接 、 强 迫 或 交流 ， 你 需要 使 用 视觉 效果 。 你 可 以 结合 
忆 术 和 业务 。 通 过 视觉 效 打 ， 你 可 以 快速 、 有 力 且 充满 感情 地 和 人 们 
交流 。 即 使 你 并 不 觉得 目 己 有 创意 ， 不 认为 目 己 可 以 像 乞 术 家 那样 ， 
你 依然 可 以 成 为 可 视 化 制作 人 员 ， 如 图 20-19 所 示 。 











人 
20-19: 借口 是 无 效 的 


正如 作家 通过 阅读 来 提升 它们 的 技术 ， 可 视 化 制作 人 员 可 以 通过 
观察 来 增强 他 们 的 技能 。 他 们 专注 地 碍 看， 紧 紧 盯 住 别人 宁可 忽略 的 





某 些 地 方 。 他 们 不 仅仅 查看 图 片 ， 而 且 观 察 事件 。 他 们 紧 紧 盯 住 事件 
的 起 因 、 影 响 、 动 机 和 手段 。 有时， 他 们 闭 上 眼睛 ， 思 考 如 何在 一 个 
Word 文 档 中 说 明 宇 宙 ， 或 者 如 何 通过 邮件 说 明 目 己 的 感情 有 多 深 ， 或 
者 如 何在 一 个 幻灯 片 里 说 明 目 己 的 业务 范畴 ， 如 图 20-20 所 示 。 








Hogress 


Vis i- 
20-20: 看 得 更 贴切 、 更 深远 


观察 是 可 视 化 的 第 一 步 ， 而 且 此 时 此 刻 你 正在 观察 。 如 果 你 可 以 
思考 它 ， 你 束 可 以 对 它 进行 可 视 化 。 如 果 你 可 以 对 它 进 行 可 视 化 ， 你 
束 可 以 分 至 它 。 而 如 果 你 可 以 分 译 它 ， 你 就 可 以 改变 这 个 世界 。 


BER: 请 环顾 一 下 你 的 四 周 。 机 会 正在 等 着 你 。 


MER til 


Dennis Adderton 是 一 名 具有 科研 仪器 设计 背景 的 电气 工程 师 。 他 
目前 是 加 州 大 学 圣 巴巴 拉 分 校 的 AlloSphere 项 目的 研究 工程 师 ， 并 师 


从 JoAnn Kuchera-Morin 博 士 学 习 媒 体 艺 术 。 


Basak Alper 是 加 州 大 学 对 巴巴 拉 分 校 的 媒体 艺术 和 技术 项 目的 博 
士 候 选 人 。 她 在 过 去 5 年 致力 于 计算 机 图 形 和 可 视 化 。 她 的 研究 成 果 是 
专注 于 以 人 类 为 中 心 的 虚拟 现实 环境 中 的 多 模式 可 视 化 。 





Nick Bilton 是 《纽约 时 报 》 的 Bits 博 客 的 技术 作家 带头 人 。 他 在 设 
计 、 用 户 界 面 、 新 闻 、 硬 件 改 装 、 纪 录 片 和 编程 上 都 有 背景 经 验 。 他 
之 前 是 《纽约 时 报 》 研 发 实验 室 的 研究 人 员 ， 在 媒体 领域 探索 了 10 年 
之 入 。 除 了 在 《纽约 时 报 》 工 作 ，Nicki 焉 共同 成 羡 了 
NYCResistor,NYCResistor 是 在 纽约 布鲁克 林 的 硬件 改装 空间 。 他 还 是 


纽约 大 学 交互 远程 通信 计划 的 兼职 教授 。 














Michael Driscoll 作 为 10 多 年 前 的 Human Genome Project 项 目 中 的 一 
名 软件 工程 师 ， 就 爱 上 了 数据 可 视 化 。 他 是 Dataspora 的 创始 人 兼 首席 
数据 科学 家 ， 在 旧金山 作为 分 析 顾 问 。Jonathan Feinberg 是 一 名 计算 机 
程序 员 ， 他 和 妻子 以 及 两 个 儿子 住 在 麻 省 的 Medford。 你 可 以 给 他 





mail:jdf@pobox.com， 尤 其 是 如 果 你 知道 在 布鲁克 林 的 Greenpoint 的 波 
士 顿 地 区 有 任何 泰国 和 餐厅。 





Danyel Fisher 是 微软 研究 员 的 VIBE (可 视 化 和 交互 ) 团队 的 一 名 
人 研究员 。 他 的 研究 兴趣 主要 是 信息 可 视 化 和 在 线 写作 ， 以 及 如 何 联合 
使 用 可 视 化 。Danyel 在 2004 年 从 加 州 大 学 欧文 分 校 获得 博士 学 位 。 他 
过 去 的 研究 主要 是 反映 社会 计算 活动 ， 可 视 化 电子 邮件 信息 和 通信 ， 
并 通过 地 图 和 地 理 软件 进行 着 色 。 他 是 图 形 绘画 软件 包 JUNG 的 作者 
之 一 ; 你 可 以 通过 以 下 网 址 访问 其 当前 的 项 目 : 


http: //research.microsoft.com/~danyelf ° 




















Jessica Hagy 征 一 名 作家 、 演 讲 家 和 顾问。 对 于 需要 表达 清晰 的 公 
司 ， 她 可 以 把 模糊 、 复 洒 的 思想 提炼 成 “鲜美 的 ”视觉 “调味 效 *”。 她 是 
著名 的 网 站 thisisindexed.com 的 作家 ， 她 的 作品 在 《纽约 时 报 》、BBC 
杂志 在 线 、《Paste》、《《 融 尔 夫 文 摘 》、 CIRP) > CHAIR 
志 》、 加 拿 大 《国家 邮 报 》、《 卫 报 》、《 时 代 周 刊 》 以 及 很 多 其 他 
新 老 媒 体 上 刊 出 。 


Todd Holloway 对 于 信息 可 视 化 、 信 息 检 索 、 机 器 学 习 、 数 据 挖 
据 、 网 络 科 学 以 及 人 工 吞 能 非常 痴迷 。 他 曾 就 恋 过 Grinnell College 大 
学 和 印第安 纳 大 学 。 


Noah lliinsky 花 了 近 几 年 的 时 间 在 思考 创建 信息 可 视 化 图 表 和 其 他 
类 型 的 有 效 方式 。 他 同时 在 设计 界面 和 交互 ， 都 征 从 功能 和 以 用 户 为 
中 心 的 角度 。 在 成 为 设计 师 之 前 ， 他 做 了 几 年 的 程序 员 。 他 在 华盛顿 
大 学 获得 通信 技术 硕士 学 位 ， 从 Reed 学 院 获 得 学 士 学 位 。 他 的 博客 是 


http: //ComplexDiagrams.com ° 





Eddie Jabbour 是 纽约 城市 的 KICK 设计 公司 的 创始 人 和 创意 总 监 。 
在 过 去 20 年 ，KICK 设 计 公 司 已 经 和 世界 上 最 知名 的 品牌 共同 通过 视觉 
冲击 创造 欣喜 和 和 创新。 


Haru 于 是 一 个 雕塑 家 、 跨 行业 的 艺术 家 和 研究 人 员 ， 通 过 人 工 生 
命 创造 世界 作为 计算 艺术 来 探索 艺术 生活 的 主题 。 目 前 ， 她 是 加 州 大 
学 圣 巴 巴 拉 分 校 的 博士 候选 人 ， 是 加 州 纳米 系统 研究 院 的 AlloSphere 
项 目 组 的 研究 员 。 她 在 世界 各 地 的 展览 会 和 艺术 节 展 示 了 计算 设备 、 
数字 雕塑 、 虚 拟 建 筑 、 视 频 设备 、 雕 塑 物体 和 三 维 动画 ， 包 括 ISEA ` 
EvoWorkshops、SIGGRAPH 以 及 相应 的 出 版 物 。 她 还 完成 了 一 半 的 协 
作 研 究 项 目 和 虚拟 生态 系统 “人 工 自然 "， 探 索 扩大 媒体 艺术 走向 世界 
的 艺术 ， 网 址 是 : http: //haru.name ° 





Valdean Klump 居 住 在 加 州 的 旧金山 ， 是 Google 创 意 实验 室 的 作 


家 。 


Aaron Koblin 是 加 州 旧金山 的 艺术 家 ， 他 由 于 数据 可 视 化 项 目 而 闻 
名 ， 如 “Sheep Market” (绵羊 市 场 ) 、“Ten Thousand Cents”( 一 万 个 
硬币 ) 和 Radiohead 的 “House of Cards” 音 乐 视 频 。 目 前 ， 他 是 Google 创 
意 实 验 室 的 技术 带头 人 。 





Robert Kosara 是 夏 洛 特 、 北 卡罗来纳 州 的 计算 机 科学 的 助理 教 
授 。 他 的 研究 兴趣 包括 分 类 数据 可 视 化 、 可 视 化 数据 通信 和 和 可视化 的 
理论 基础 。Robert 的 网 站 是 : http: //EagerEyes.org ° 


Valdis Krebs t RARI ERZ TH Orgnet.com h h is BAA 
。 Orgnet.com 网 站 为 公司 组 织 、 社 区 提供 社交 网 络 分 析 软 件 和 服 
， 并 提供 咨询 。 


R 党 


JoAnn Kuchera-Morin 博 士 是 一 名 作曲 家 ， 她 是 加 州 大 学 圣 巴巴 拉 
分 校 的 媒体 艺术 多 技术 专业 以 及 音乐 专业 的 教授 ， 研 究 多 模式 媒体 系 
统 、 内 容 和 配套 设施 的 设计 。 她 超过 25 年 的 数字 媒体 领域 带头 人 经 
验 ， 在 加 州 大 学 圣 巴巴 拉 分 校 创 立 、 设 计 和 开发 了 一 个 数字 媒体 中 
心 ， 她 目前 的 最 佳 设计 是 Allosphere 研 究 实验 室 ， 把 三 层 的 金属 球体 置 
于 无 回声 的 工作 室内 ， 其 设计 目的 是 为 了 对 多 维 数据 集 进 行 沉 漫 式 、 
交互 式 的 科学 和 艺术 探索 。JoAnn Kuchera-Morin 博 士 是 Allosphere 研 究 
中 心 主 任 。 











Andrew Odewahn 是 O'Reilly 媒 体 的 商务 发 展 部 门 主 任 ， 他 帮助 那 
些 热衷 于 新 领域 的 观众 技术 爱好 者 参与 公司 活动 。 他 发 表 了 两 本 关于 
数据 库 开 发 的 著作 ， 是 tagcaster.com 的 创始 人 ， 纽 约 大 学 的 斯 特 恩 商学 
院 的 研究 生 ， 是 Appalachian Trail 的 徒步 旅行 者 。 





Anders Persson 博 士 是 瑞典 Linkoping 大 学 的 医学 图 像 科 学 和 可 视 化 
中 心 的 副教授 和 主任 ( (CIV; http: /www.cmiv.liu.se)。 该 中 心 专注 于 
多 学 科 项 目 内 的 前 线 研 究 ， 为 今后 的 临床 问题 提供 解决 方案 。 其 任务 
是 为 卫生 健康 和 医学 研究 应 用 的 图 像 分 机 和 可 视 化 制定 方法 和 工具 。 


Adam Perer 博 士 是 以 色 列 海 法 ( (Hifa)IBM 人 研究 院 的 研究 科学 家 。 
他 的 研究 兴趣 包括 设计 新 的 可 视 化 技术 来 帮助 人 们 理解 复杂 数据 。 可 
以 通过 其 网 站 访问 更 多 信息 : http: //perer.org/。 


Lance Putnam 是 一 位 作曲 家 和 人 研究 人 员 ， 调 查 计算 机 生成 的 声音 
和 图 像 环境 下 的 频率 和 空间 的 关系 。 他 目前 是 加 州 大 学 对 巴巴 拉 分 校 
( (USB) 媒 体 艺 术 和 技术 专业 的 博士 修 选 人 。 他 拥有 麦迪 还 威斯康星 
州 大 学 的 电子 和 计算 工程 专业 的 学 士 学 位 ， 以 及 UCSB 的 电子 音乐 和 
声音 设计 的 硕士 学 位 。 他 被 选 为 8 个 国际 学 生 之 一 ， 在 纽约 IBM 
工 JWatson 研 究 中 心 的 2007 年 新 兴 多 媒体 会 议 展示 其 在 媒体 信号 处 理 方 
面 的 研究 。 他 的 工作 成 果 “S Phase” 曾 在 北 爱尔兰 贝尔 法 斯 特 的 2008 年 
国际 计算 机 音乐 会 议和 2009 年 意大利 Parma 的 Traiettorie 节 日 上 展示 。 








Maximilian Schiche ~ DFG ZA LAA, fF ANBarabasiLab 
实验 室 的 访问 研究 科学 家 一 在 波士顿 东北 大 学 的 复杂 网 络 研究 中 
心 ， 他 和 网 络 科 学 家 协作 ， 研 究 艺术 历史 和 考古 学 的 复杂 网 络 。 
Maximilian 在 2007 年 获得 博士 学 位 ， 有 10 多 年 的 顾问 咨询 经 验 ， 致 力 
于 艺术 研究 的 网 络 数据 ， 作 为 项 目 合作 者 、 用 户 、 程 序 员 和 客户 四 者 
之 间 的 经 纪 人 。 他 花 了 几 年 的 时 间 致 力 于 Projekt Dyabola 项 目 、 
Bibliotheca Hertziana 〈 艺 术 历 史 Max-Planck 研 究 所 ) ` Munich 





Glyptothek 和 Zentralinstitut fiir Kunstgeschichte。 可 以 通过 以 下 网 址 查 到 


更 多 : http: //wwwsschich.info ° 


Matthias Shapiro 征 一 名 软件 设计 师 ， 并 且 是 基于 犹他 州 盐 城 的 信 
息 可 视 化 爱好 者 。 他 通过 Silverlight 创 建 了 绝 大 部 分 的 可 视 化 ， 并 兼职 
作为 信息 可 视 化 的 独立 的 传播 者 ， 同 参议 员 、CNN 主 持 人 、 微软 会 议 
参与 人 以 及 任何 “不 够 智 达 逃 避 其 发 言 的 人 ”来 说 明 可 视 化 的 重要 性 。 


Julie Steele 是 O'Reilly 媒 体 的 一 名 编辑 ， 她 对 于 把 人 们 和 思想 连接 
起 来 感 兴趣 。 她 从 发 现 新 的 方式 来 理解 复杂 系统 中 找到 美丽 ， 并 且 对 
于 和 组 织 、 存 储 和 可 视 化 数据 方面 相关 的 主题 感 兴趣 。 她 在 罗 格 斯 大 
学 获得 政治 科学 学 位 ， 并 正在 为 O'Reilly 开 发 Gov 2.0 内 容 ， 由 于 该 空 
间 继 续 增 长 。Julie 还 致力 于 Python、PHP 和 SQL 相关 的 主题 工作 ， 而 且 
是 纽约 尚未 学 习 Python 小 组 的 创始 人 。 


Moritz Stefaner 是 介 于 信息 可 视 化 和 设计 之 间 的 研究 人 员 和 目 由 职 
业者 。 他 的 主要 兴趣 是 信息 可 视 化 和 数据 挖掘 如 何 帮 助 我 们 组 织 和 发 
现 信息 。 他 在 认 知 科学 和 界面 设计 上 都 获得 学 位 。 他 的 作品 曾 在 
SIGGRAPH 和 电子 艺术 节 上 展览 。 最 近 ， 他 被 提名 为 德国 2010 年 联邦 
共和 国 设计 奖 。 可 以 在 http: /moritz.stefanereu 和 http: //well-formed- 


data.net 得 到 更 多 信息 。 











Jer Thorp 古 来 目 加 拿 大 温哥华 的 艺术 家 和 教育 家 。 作 为 前 遗传 学 
家 ， 其 数字 亏 术 实 践 探索 了 在 科学 和 艺术 之 间 的 多 个 方面 。 最 近 ， 他 
的 作品 体现 了 《纽约 时 报 》、《 卫 报 》、 加 拿 大 广播 公司 的 特征 。 
Thorp 的 基于 软件 的 获奖 作品 曾 在 了 欧洲、 亚洲、 北美 、 南 非 、 澳 大 利 亚 
和 整个 Web 上 展 咒 。Jer 是 有 线 英 国电 台 的 特约 编辑 。 





Fernanda Viégas 和 Martin Wattenberg 是 Flowing 媒 体 公 司 的 创始 
人 ，Flowing 媒 体 公 司 是 麻 省 剑桥 的 可 视 化 设计 视频 。 他 们 在 2003 年 决 
定 对 维基 百科 进行 可 视 化 时 组 成 一 个 团队 ， 生 成 第 11 章 中 所 描述 的 历 
史 流 项 目 。 在 成 立 Flowing 媒 体 公司 之 前 ， 他 们 是 IBM 的 视觉 通信 实验 
室 的 带头 人 人， 他们 在 该 实验 宇 探 索 可 视 化 作为 多 媒体 的 强大 ， 以 及 其 
促使 了 数据 分 析 的 社会 形势 。 








Vikgas 因 其 在 措 述 聊天 历史 和 邮件 上 所 做 的 开创 新 工作 而 著名 。 
Wattenberg 对 股票 市 场 和 归 儿 名 字 的 可 视 化 被 认为 是 互联 网 的 经 典 。 
Viégas 和 Wattenberg 还 由 于 其 基于 可 视 化 的 艺术 作品 而 车 名， 其 作品 











经 在 纽约 的 当代 艺术 展览 第 大 道 、 当 代 艺 术 伦敦 研究 所 和 美国 艺术 的 
Whitney 2 WVE Et ° 


Graham Wakefield 通 过 从 生物 系统 和 由 生物 哲学 启发 的 灵感 来 控 
索 计 算 艺 术 的 开放 自主 权 。 他 是 加 州 大 学 圣 巴巴 拉 分 校 的 媒体 艺术 和 
技术 的 博士 候选 人 ， 并 且 从 伦敦 大 学 Goldsmiths 学 院 获 得 音乐 作曲 学 
位 ， 从 Warwick 大 学 获取 本 科学 位 。 除 了 作为 CNSI AlloSphere 的 一 名 
研究 人 员 ( (AloBrain,Cosm,LuaAV)， 他 还 是 自行 车 74 比赛 
( (Mx/MSP/Jitter) 的 软件 开发 人 员 ， 并 且 是 南 加 州 建 筑 学 院 ( (SI-Arc) 
的 一 名 讲师 。 他 的 作品 和 发 表 的 文章 在 国际 会 议 上 展 出 和 演示 ， 如 
SIGGRAPH ` ICMC ` ISEA ° 





Martin Wattenberg Fernanda Vikgas 是 Flowing 媒 体 公 司 的 创始 
As WEE XP 


Michael Young 是 《纽约 时 报 》 公 司 的 研发 组 的 一 位 富 于 创意 的 技 
术 工 程 师 。 他 带领 了 一 个 较 小 的 技术 团队 ， 设 计 和 探索 在 多 平台 和 设 
备 上 的 内 容 消 费 特征 。 其 更 多 信息 可 以 通过 http: //81nassau.com 访 
[A] 。 


